Google DeepMind 发布 DiffusionGemma：26B MoE 扩散模型，推理速度超 1100 tokens/秒

Google DeepMind推出基于26B A4B MoE架构的DiffusionGemma模型，支持图像文本生成。

Google DeepMind 正式推出了一款名为 DiffusionGemma 的开源多模态模型，其核心创新在于用离散扩散生成方式取代了主流大语言模型沿用的逐 token 自回归解码。该模型已在 Hugging Face 上线，采用 Apache 2.0 许可证，由 Google DeepMind 团队开发。

从架构上看，DiffusionGemma 建立在 Gemma 4 的 26B A4B 混合专家基础之上，总参数量为 25.2B，每次推理激活的参数仅 3.8B。它采用编码器-解码器设计：编码器负责处理提示上下文并生成 KV 缓存，解码器则通过双向注意力机制，对一块被称为“画布”的 token 块进行并行去噪。具体而言，模型一次前向传播可同时处理 256 个 token，在 H100 GPU 上使用 FP8 精度、低批次推理场景下，单用户生成速度可突破 1100 tokens/秒。

这种“块自回归”加扩散采样的策略，打破了传统因果语言模型逐 token 串行生成的顺序瓶颈。推理时，模型会迭代地对一整块 token 去噪，待该块完全去噪后再由编码器处理并追加到 KV 缓存中，接着生成下一块。由于简单提示或结构化任务所需的去噪步数更少，推理速度还可根据任务复杂度动态调整。

在能力层面，DiffusionGemma 支持文本、图像、视频的混合输入，上下文窗口最长可达 256K tokens。视觉方面，它能处理可变宽高比和分辨率的图像，具备物体检测、文档解析、图表理解、多语言 OCR 以及视频内容分析等功能。模型内置了思考模式，可在回答前进行逐步推理，并原生支持函数调用，便于构建智能体工作流。语言覆盖上，模型开箱即支持 35 种以上语言，预训练语料则涉及 140 多种语言。

官方公布的基准测试显示，DiffusionGemma 在多项指标上展现了竞争力。例如，在 MMLU Pro 上达到 77.6%，AIME 2026 无工具条件下为 69.1%，LiveCodeBench v6 得分 69.1%，GPQA Diamond 为 73.2%。视觉任务中，MMMU Pro 取得 54.3%，MATH-Vision 达到 70.5%。不过，与同门的 Gemma 4 26B A4B 相比，其在部分纯文本推理基准上仍有差距，这反映出扩散生成在推理深度与速度之间的取舍。

值得关注的是，DiffusionGemma 专门针对小批次、单加速器场景做了推理优化，这使其在本地部署或边缘设备上具备实用潜力。对于追求高吞吐、低延迟的 AI 应用开发者而言，这种架构转向提供了一条不同于单纯扩大模型规模的新思路。Google DeepMind 此次将扩散模型从图像生成领域拓展到大语言模型，可能推动业界重新审视生成式模型的底层解码范式。

Google DeepMind 发布 DiffusionGemma：26B MoE 扩散模型，推理速度超 1100 tokens/秒

延伸阅读

相关深度报道

相关每日新闻