谷歌开源扩散模型DiffusionGemma，4090单卡可跑

谷歌DeepMind发布DiffusionGemma，文本生成速度可达自回归模型的4倍。

谷歌DeepMind在6月11日凌晨正式发布了一款名为DiffusionGemma的开放实验模型，将图像生成领域成熟的扩散模型思路引入文本生成。这款模型基于Apache 2.0许可协议开源，拥有260亿参数，采用混合专家架构，推理时仅激活约38亿参数，使其在消费级显卡上也能流畅运行。

与当前主流的自回归语言模型不同，DiffusionGemma不再像打字机那样从左到右逐个token生成文本，而是一次性输出包含256个token的完整段落。它的工作方式更接近AI图像生成模型：先随机初始化一组占位token，再通过多轮迭代不断修正和优化，最终收敛为通顺可用的文本。这种并行生成模式大幅提升了硬件利用率，将解码瓶颈从内存带宽转移至计算单元。

DeepMind与英伟达联合完成了全硬件栈优化。模型已针对GeForce RTX 5090和RTX 4090显卡完成量化适配，在单张H100上生成速度可达每秒1000个token以上，在RTX 5090上可达每秒700个token以上。此外，DiffusionGemma原生支持英伟达的NVFP4技术，能在几乎不损失生成精度的前提下进一步提升计算吞吐量。无论是搭载Hopper或Blackwell架构的企业级设备，还是面向本地桌面部署的DGX Spark、DGX Station，以及面向AI专业人员的RTX PRO系列产品，都能流畅运行该模型。

在功能层面，DiffusionGemma具备一些自回归模型难以实现的能力。它可以同步处理整段内容，精准补全复杂的Markdown格式，近乎实时地生成并渲染代码，甚至能根据文字描述生成3D SVG图形。模型还具备智能自纠错特性，在迭代过程中可一次性对整段文本进行校验和修正。开发者可以通过微调进一步提升其在特定任务中的表现，例如开源框架Unsloth已展示其在数独任务上的微调效果，双向注意力机制使其在处理这类前后关联紧密的任务时比自回归模型更具优势。

不过，DiffusionGemma并非全能选手。DeepMind明确指出，在生成质量上它不及标准版Gemma 4。数据显示，其单请求生成token的速度约为Gemma 4的3.65倍，但整体输出质量有所不及。对于追求极致生成质量的应用场景，官方仍建议使用Gemma 4。

另一个关键局限在于适用场景。DiffusionGemma的并行解码优势主要体现在本地部署和低并发推理中，在单张加速卡、中小批次任务下性能表现最为突出。但在高查询量的云端服务场景中，自回归模型可以更充分地榨取计算资源，而DiffusionGemma的并行优势会逐渐弱化，甚至可能推高服务成本。因此，这款模型更适合个人开发者和小团队在本地进行高速交互式实验，而非大规模云端部署。

从产业视角看，DiffusionGemma的推出并非宣告文本扩散模型将取代自回归架构，而是为端侧AI和本地实时交互场景提供了一条新的技术路径。随着本地推理需求持续增长，如何在生成质量、推理速度和硬件成本之间找到平衡，正成为大模型发展的重要命题。DeepMind此次开源实验，将这一探索交到了开发者社区手中，其最终价值仍有待实际应用场景的进一步验证。

谷歌开源扩散模型DiffusionGemma，4090单卡可跑

延伸阅读

相关深度报道

相关每日新闻