使用谷歌Gemma 4 12B模型构建本地多模态智能体

2026-06-17 65103阅读

作者 / 研究工程师 André Susano Pinto、Andreas Steiner 与 Karolis Misiunas，研究科学家 Karsten Roth、Michael Tschannen 与技术专家 Omar Sanseviero

不久之前，我们正式推出了Gemma 4 12B，一款采用统一无编码器 (encoder-free) 架构的稠密多模态模型 (dense multimodal model)。

Gemma 4 12B 为本地 AI 带来了多个里程碑式的突破:

1.无编码器的多模态架构 (Multimodal encoder-free architecture):彻底绕过了繁重的多阶段视觉和音频编码器，多模态数据直接输入到 LLM 主干网络中，从而降低了多模态交互的延迟。

2.我们首款支持音频输入的中型模型:在 Gemma 家族中，此前音频输入仅限于小型、轻量级的边缘端架构 (例如 E4B)。Gemma 4 12B 是首款能够原生处理音频输入的中型模型。

3.对开发者友好的尺寸:模型体量轻巧，可直接在配备 16GB 独立显存 (VRAM) 或统一内存的笔记本电脑上本地运行。为了最大化本地推理速度，我们还额外发布了一个专用的多 Token 预测 (MTP) 模型。

4.全新 MacOS 桌面端体验:我们首次发布了可下载的 macOS 桌面应用，让开发者能够直接在消费级设备上，体验完全本地化的语音和视觉交互。

架构设计

传统的多模态模型依赖于独立且参数固定的视觉编码器 (例如，Gemma 4 在端侧版本上使用 1.5 亿参数的视觉模型，在中型尺寸上使用 5.5 亿参数的视觉模型) 和音频编码器 (在 Gemma 4 E2B 和 E4B 中使用 3 亿参数的编码器)。在将多模态输入送入 LLM 之前，使用多个独立的编码器对其进行处理，会导致延迟增加和内存占用碎片化。

Gemma 4 12B 通过采用单一的 Decoder-onlyTransformer 架构解决了这些问题，该架构包含了与 Gemma 4 31B Dense 模型相同的先进解码器结构。

视觉嵌入器 (3,500 万参数):取代了其他中型 Gemma 4 模型中的 27 个视觉 Transformer 层。原始的 48x48 像素块通过单次矩阵乘法 (matmul) 直接投影到 LLM 的隐藏维度。通过因式分解坐标查找 (factorized coordinate lookup，即 X 和 Y 矩阵) 将空间位置信息直接附加到输入中。

音频波形投影 (Audio wave projection):消除了独立的音频编码器 (跳过了 Gemma 4 E2B 和 E4B 中使用的 12 层 Conformer)。原始的 16 kHz 音频信号被切分为 40 毫秒的帧 (每帧包含 640 个浮点数)，并线性投影到 LLM 的输入空间中。

统一微调优势:由于视觉、音频和文本输入共享完全相同的模型权重，您不再需要协同微调 (co-tune) 各个独立的 "冻结" 编码器。下游微调适配器 (例如 LoRA) 或全量微调，均可自然地在单次传递中更新整个多模态 Token 循环 (通过 Hugging Face 或 Unsloth 框架)。

模型能力

Gemma 4 12B 展示了极其优异的性能，具备自动语音识别 (ASR)、智能体推理 (agentic reasoning)、讲话人区分 (diarization)、视频理解、编码等多种能力。

请看以下展示模型智能体和多模态能力的示例:

示例 1: Gemma 4 12B 构建了一个

使用其自身驱动的本地图像处理应用

得益于其强大的智能体与多模态理解能力，Gemma 4 12B 可以非常轻松地与现有的智能体框架 (如 OpenCode) 配合使用。在这个例子中，我们使用 llama.cpp 在本地部署该模型，并利用gemma-skills编写了一个 Gradio 应用来帮助用户处理图像。而驱动这个 Gradio 应用的，正源于构建它自身的同一个 Gemma 4 12B 模型！

示例 2: 以 1 FPS (每秒 1 帧)

处理包含音频的 5 分钟视频

我们尝试使用 Gemma 4 12B 分析了 5 月 19 日Google I/O 主题演讲中 0032 到 0045 之间的 5 分钟片段。为此，我们以 1 FPS 的采样率提取了该片段的所有帧，以及视频的音频和提示。

输入提示 (Prompt):

1.313 张视频帧 (以 1 FPS 进行采样，并调整图像大小以适应 70视觉 Token Budget)

2.视频的音频 + 下方的提示

3.问题: "当那个男人自拍时发生了什么？"

在这些演示视频中，当该男子进行 "自拍" 或将智能手机举在脸前时，这是一种巧妙的视觉隐喻，用来展现 AI 模型如何利用现有的媒体 (如个人照片或视频剪辑) 并对其进行 "重新想象"。在这些特定的片段中，模型以这张自拍照为基础，生成了各种不同的场景 (例如身处空间站的人，或者在森林中漫步)。

从本质上讲，该男子并不是真的在自拍；相反，他是在通过动作展示一个视觉隐喻，代表 AI 有能力获取一个特定的输入 ("自拍")，并以此为基础生成一个全新的内容世界。这是 Gemini Omni 模型 "Swap" 和 "构建世界 (Build worlds)" 演示的一部分，展示了其执行复杂的多模态推理和创造性生成的能力。

设备端与桌面端部署: 由 LiteRT-LM 驱动

伴随着 Gemma 4 12B 的发布，我们正式推出了由 LiteRT-LM 驱动的强大设备端开发者集成方案，将零延迟的本地 AI 执行能力原生引入标准桌面环境:

1. 原生 MacOS 应用:移动端的Google AI Edge Gallery正式扩展至桌面平台，可在 Apple Silicon GPU 上原生、离线运行 Gemma 4 12B。它配备了一个安全的沙盒化 Python 执行循环，可以直接在聊天气泡中编写、运行并绘制科学图表。与此同时，Mac 上的Google AI Edge Eloquent应用也开启了对 Gemma 12B 的支持，用以驱动语音编辑 (Voice Edit) 对话输入。

2. 即插即用的本地 API 服务器 (litert-lm serve):通过全新的 litert-lm serve命令行指令，可将 Gemma 4 12B 作为本地且兼容 OpenAI 的 API 服务器运行。无缝连接标准的集成工具 (例如 Continue、Aider、OpenClaw、Hermes 或 OpenCode)，并利用内存中的无状态前缀缓存 (stateless prefix caching) 来匹配上下文历史，从而立即跳过预填充 (Prefill) 延迟。

litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm gemma-4-12B-it.litertlm gemma4-12b


# Start the OpenAI-compatible server
litert-lm serve

您可以在 Google AI Edge Gallery博客中获取关于此内容的深入解析。

即刻开启体验

准备好用 Gemma 家族的首个无编码器架构来构建本地多模态智能体了吗？以下是您现在就可以上手的方式:

亲自上手尝试:只需点击几次，即可在LM Studio、Ollama、Google AI Edge Gallery 应用、Google AI Edge Eloquent应用以及LiteRT-LM CLI中轻松开始体验。

下载模型权重:直接从Hugging Face和Kaggle下载预训练和指令微调 (Instruction-tuned) 后的检查点 (Checkpoint)。

集成与学习:查阅开发者文档和快速入门 Notebook。

使用您喜爱的开发工具:使用Hugging Face Transformers、llama.cpp、MLX、SGLang和vLLM构建本地推理流水线，或者使用Unsloth进行高效微调。

借助 Gemma Skills 解锁智能体开发:为了支持智能体结合最新的 Gemma 技术成果进行构建，我们发布了官方的Skills Repository，这是一个专门为赋能智能体使用 Gemma 模型而设计的 Skills 库。

灵活部署:使用 Google Cloud 在生产环境中快速启动推理端点。您可以通过Gemini 企业级智能体平台的 Model Garden、Cloud Run和GKE (Google Kubernetes Engineer)选择最适合您的方式进行灵活部署。

使用谷歌Gemma 4 12B模型构建本地多模态智能体

相关阅读

使用谷歌Gemma 4 12B模型构建本地多模态智能体

迪文科技：押注未来，智能显示助力储能产业新升级

晓网RF100 RFID 模块：赋能智能柜体，开启无人零售新体验

芯盛智能与中移苏研院完成双向产品兼容性互认证