使用谷歌Gemma 4 12B模型构建本地多模态智能体

2026-06-17 65103阅读

作者 / 研究工程师 André Susano Pinto、Andreas Steiner 与 Karolis Misiunas,研究科学家 Karsten Roth、Michael Tschannen 与技术专家 Omar Sanseviero

不久之前,我们正式推出了Gemma 4 12B,一款采用统一无编码器 (encoder-free) 架构的稠密多模态模型 (dense multimodal model)。

Gemma 4 12B 为本地 AI 带来了多个里程碑式的突破:

1.无编码器的多模态架构 (Multimodal encoder-free architecture):彻底绕过了繁重的多阶段视觉和音频编码器,多模态数据直接输入到 LLM 主干网络中,从而降低了多模态交互的延迟。

2.我们首款支持音频输入的中型模型:在 Gemma 家族中,此前音频输入仅限于小型、轻量级的边缘端架构 (例如 E4B)。Gemma 4 12B 是首款能够原生处理音频输入的中型模型。

3.对开发者友好的尺寸:模型体量轻巧,可直接在配备 16GB 独立显存 (VRAM) 或统一内存的笔记本电脑上本地运行。为了最大化本地推理速度,我们还额外发布了一个专用的多 Token 预测 (MTP) 模型。

4.全新 MacOS 桌面端体验:我们首次发布了可下载的 macOS 桌面应用,让开发者能够直接在消费级设备上,体验完全本地化的语音和视觉交互。

架构设计

传统的多模态模型依赖于独立且参数固定的视觉编码器 (例如,Gemma 4 在端侧版本上使用 1.5 亿参数的视觉模型,在中型尺寸上使用 5.5 亿参数的视觉模型) 和音频编码器 (在 Gemma 4 E2B 和 E4B 中使用 3 亿参数的编码器)。在将多模态输入送入 LLM 之前,使用多个独立的编码器对其进行处理,会导致延迟增加和内存占用碎片化。

Gemma 4 12B 通过采用单一的 Decoder-onlyTransformer 架构解决了这些问题,该架构包含了与 Gemma 4 31B Dense 模型相同的先进解码器结构。

7c0501e0-68aa-11f1-90a1-92fbcf53809c.png

视觉嵌入器 (3,500 万参数):取代了其他中型 Gemma 4 模型中的 27 个视觉 Transformer 层。原始的 48x48 像素块通过单次矩阵乘法 (matmul) 直接投影到 LLM 的隐藏维度。通过因式分解坐标查找 (factorized coordinate lookup,即 X 和 Y 矩阵) 将空间位置信息直接附加到输入中。

音频波形投影 (Audio wave projection):消除了独立的音频编码器 (跳过了 Gemma 4 E2B 和 E4B 中使用的 12 层 Conformer)。原始的 16 kHz 音频信号被切分为 40 毫秒的帧 (每帧包含 640 个浮点数),并线性投影到 LLM 的输入空间中。

统一微调优势:由于视觉、音频和文本输入共享完全相同的模型权重,您不再需要协同微调 (co-tune) 各个独立的 "冻结" 编码器。下游微调适配器 (例如 LoRA) 或全量微调,均可自然地在单次传递中更新整个多模态 Token 循环 (通过 Hugging Face 或 Unsloth 框架)。

模型能力

Gemma 4 12B 展示了极其优异的性能,具备自动语音识别 (ASR)、智能体推理 (agentic reasoning)、讲话人区分 (diarization)、视频理解、编码等多种能力。

请看以下展示模型智能体和多模态能力的示例:

示例 1: Gemma 4 12B 构建了一个

使用其自身驱动的本地图像处理应用

得益于其强大的智能体与多模态理解能力,Gemma 4 12B 可以非常轻松地与现有的智能体框架 (如 OpenCode) 配合使用。在这个例子中,我们使用 llama.cpp 在本地部署该模型,并利用gemma-skills编写了一个 Gradio 应用来帮助用户处理图像。而驱动这个 Gradio 应用的,正源于构建它自身的同一个 Gemma 4 12B 模型!

示例 2: 以 1 FPS (每秒 1 帧)

处理包含音频的 5 分钟视频

我们尝试使用 Gemma 4 12B 分析了 5 月 19 日Google I/O 主题演讲中 0032 到 0045 之间的 5 分钟片段。为此,我们以 1 FPS 的采样率提取了该片段的所有帧,以及视频的音频和提示。

输入提示 (Prompt):

1.313 张视频帧 (以 1 FPS 进行采样,并调整图像大小以适应 70视觉 Token Budget)

2.视频的音频 + 下方的提示

3.问题: "当那个男人自拍时发生了什么?"

在这些演示视频中,当该男子进行 "自拍" 或将智能手机举在脸前时,这是一种巧妙的视觉隐喻,用来展现 AI 模型如何利用现有的媒体 (如个人照片或视频剪辑) 并对其进行 "重新想象"。在这些特定的片段中,模型以这张自拍照为基础,生成了各种不同的场景 (例如身处空间站的人,或者在森林中漫步)。

从本质上讲,该男子并不是真的在自拍;相反,他是在通过动作展示一个视觉隐喻,代表 AI 有能力获取一个特定的输入 ("自拍"),并以此为基础生成一个全新的内容世界。这是 Gemini Omni 模型 "Swap" 和 "构建世界 (Build worlds)" 演示的一部分,展示了其执行复杂的多模态推理和创造性生成的能力。

设备端与桌面端部署: 由 LiteRT-LM 驱动

伴随着 Gemma 4 12B 的发布,我们正式推出了由 LiteRT-LM 驱动的强大设备端开发者集成方案,将零延迟的本地 AI 执行能力原生引入标准桌面环境:

1. 原生 MacOS 应用:移动端的Google AI Edge Gallery正式扩展至桌面平台,可在 Apple Silicon GPU 上原生、离线运行 Gemma 4 12B。它配备了一个安全的沙盒化 Python 执行循环,可以直接在聊天气泡中编写、运行并绘制科学图表。与此同时,Mac 上的Google AI Edge Eloquent应用也开启了对 Gemma 12B 的支持,用以驱动语音编辑 (Voice Edit) 对话输入。

2. 即插即用的本地 API 服务器 (litert-lm serve):通过全新的 litert-lm serve命令行指令,可将 Gemma 4 12B 作为本地且兼容 OpenAI 的 API 服务器运行。无缝连接标准的集成工具 (例如 Continue、Aider、OpenClaw、Hermes 或 OpenCode),并利用内存中的无状态前缀缓存 (stateless prefix caching) 来匹配上下文历史,从而立即跳过预填充 (Prefill) 延迟。

litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm gemma-4-12B-it.litertlm gemma4-12b


# Start the OpenAI-compatible server
litert-lm serve

您可以在 Google AI Edge Gallery博客中获取关于此内容的深入解析。

即刻开启体验

准备好用 Gemma 家族的首个无编码器架构来构建本地多模态智能体了吗?以下是您现在就可以上手的方式:

亲自上手尝试:只需点击几次,即可在LM Studio、Ollama、Google AI Edge Gallery 应用、Google AI Edge Eloquent应用以及LiteRT-LM CLI中轻松开始体验。

下载模型权重:直接从Hugging Face和Kaggle下载预训练和指令微调 (Instruction-tuned) 后的检查点 (Checkpoint)。

集成与学习:查阅开发者文档和快速入门 Notebook。

使用您喜爱的开发工具:使用Hugging Face Transformers、llama.cpp、MLX、SGLang和vLLM构建本地推理流水线,或者使用Unsloth进行高效微调。

借助 Gemma Skills 解锁智能体开发:为了支持智能体结合最新的 Gemma 技术成果进行构建,我们发布了官方的Skills Repository,这是一个专门为赋能智能体使用 Gemma 模型而设计的 Skills 库。

灵活部署:使用 Google Cloud 在生产环境中快速启动推理端点。您可以通过Gemini 企业级智能体平台的 Model Garden、Cloud Run和GKE (Google Kubernetes Engineer)选择最适合您的方式进行灵活部署。