英伟达加速谷歌DeepMind扩散模型DiffusionGemma本地运行

英伟达优化DiffusionGemma模型，可在本地PC至云端GPU上实现并行文本生成。

谷歌DeepMind近日正式发布了一款名为DiffusionGemma的实验性开源模型，其核心突破在于改变了大型语言模型生成文本的基本方式。当前广泛使用的模型几乎都是自回归式的——逐词预测，每个新词依赖前一个词，这种顺序过程使得交互式AI看起来像在打字。DiffusionGemma则另辟蹊径，借鉴了扩散模型生成图像的思路：从噪声开始，一次性精炼整个文本块，每个步骤并行去噪最多256个令牌，而非逐个生成。

该模型建立在Gemma 4的26亿参数混合专家架构之上，每步仅激活38亿参数，将扩散头与Gemma 4架构相结合。这种“以块为单位思考”的设计，对于延迟敏感的单用户工作负载——如交互式聊天、代理循环或设备端助手——意味着响应速度足以跟上开发者的思考与迭代节奏。

英伟达迅速对DiffusionGemma进行了深度优化，使其在自家GPU产品线上运行效率大幅提升。传统自回归模型在批大小为1时，本质上是内存带宽受限的，大部分时间在等待内存而非计算，大量算力被闲置。扩散方式则将其转变为计算密集型任务，恰好契合英伟达GPU的设计强项。Tensor Core加速密集并行运算，CUDA软件栈让模型从首日起即可高效运行，无需专门调优。

具体性能数据显示，在单个NVIDIA H100 Tensor Core GPU上，DiffusionGemma在批大小为1时可实现每秒1000个令牌的生成速度；在DGX Spark上达到每秒150个令牌；在DGX Station上则提供最快本地推理，约比同等自回归模型在同一单用户场景下快4倍。这一优势覆盖了英伟达从桌面到工作站的完整产品线：DGX Spark搭载GB10 Grace Blackwell超级芯片与128GB统一内存，预装AI软件栈，适合原型开发与微调；RTX PRO 6000工作站为专业工作流提供本地低延迟生成空间；DGX Station以748GB一致性内存实现每秒高达800个令牌的高速推理；GeForce RTX GPU也将很快获得llama.cpp支持。

对于开发者而言，上手门槛较低。通过Hugging Face Transformers可直接在GeForce RTX 5090或DGX Spark上开箱测试；vLLM提供首日推理服务支持；Unsloth和NVIDIA NeMo框架可用于针对特定任务或领域进行微调，并配有现成的DGX Spark操作手册。模型以宽松的Apache 2.0许可开放权重，完全在本地运行，无需云端、无按令牌计费。

从产业角度看，DiffusionGemma的出现为端侧AI推理开辟了新路径。它直接回应了开发者与研究人员对低延迟、低成本、高隐私本地运行的需求，尤其在代理工作流与交互式应用中，并行生成带来的速度提升可能改变用户体验预期。对英伟达而言，这种计算密集型模型进一步放大了其GPU在推理市场的硬件优势，巩固了从云端到边缘的AI算力护城河。同时，开放权重策略与多框架支持也有助于快速扩大生态影响力，吸引更多开发者在其硬件上构建应用。

英伟达加速谷歌DeepMind扩散模型DiffusionGemma本地运行

延伸阅读

相关深度报道

相关每日新闻