谷歌DeepMind近日正式发布了一款名为DiffusionGemma的实验性开源模型,其核心突破在于改变了大型语言模型生成文本的基本方式。当前广泛使用的模型几乎都是自回归式的——逐词预测,每个新词依赖前一个词,这种顺序过程使得交互式AI看起来像在打字。DiffusionGemma则另辟蹊径,借鉴了扩散模型生成图像的思路:从噪声开始,一次性精炼整个文本块,每个步骤并行去噪最多256个令牌,而非逐个生成。

该模型建立在Gemma 4的26亿参数混合专家架构之上,每步仅激活38亿参数,将扩散头与Gemma 4架构相结合。这种“以块为单位思考”的设计,对于延迟敏感的单用户工作负载——如交互式聊天、代理循环或设备端助手——意味着响应速度足以跟上开发者的思考与迭代节奏。

英伟达迅速对DiffusionGemma进行了深度优化,使其在自家GPU产品线上运行效率大幅提升。传统自回归模型在批大小为1时,本质上是内存带宽受限的,大部分时间在等待内存而非计算,大量算力被闲置。扩散方式则将其转变为计算密集型任务,恰好契合英伟达GPU的设计强项。Tensor Core加速密集并行运算,CUDA软件栈让模型从首日起即可高效运行,无需专门调优。

具体性能数据显示,在单个NVIDIA H100 Tensor Core GPU上,DiffusionGemma在批大小为1时可实现每秒1000个令牌的生成速度;在DGX Spark上达到每秒150个令牌;在DGX Station上则提供最快本地推理,约比同等自回归模型在同一单用户场景下快4倍。这一优势覆盖了英伟达从桌面到工作站的完整产品线:DGX Spark搭载GB10 Grace Blackwell超级芯片与128GB统一内存,预装AI软件栈,适合原型开发与微调;RTX PRO 6000工作站为专业工作流提供本地低延迟生成空间;DGX Station以748GB一致性内存实现每秒高达800个令牌的高速推理;GeForce RTX GPU也将很快获得llama.cpp支持。

对于开发者而言,上手门槛较低。通过Hugging Face Transformers可直接在GeForce RTX 5090或DGX Spark上开箱测试;vLLM提供首日推理服务支持;Unsloth和NVIDIA NeMo框架可用于针对特定任务或领域进行微调,并配有现成的DGX Spark操作手册。模型以宽松的Apache 2.0许可开放权重,完全在本地运行,无需云端、无按令牌计费。

从产业角度看,DiffusionGemma的出现为端侧AI推理开辟了新路径。它直接回应了开发者与研究人员对低延迟、低成本、高隐私本地运行的需求,尤其在代理工作流与交互式应用中,并行生成带来的速度提升可能改变用户体验预期。对英伟达而言,这种计算密集型模型进一步放大了其GPU在推理市场的硬件优势,巩固了从云端到边缘的AI算力护城河。同时,开放权重策略与多框架支持也有助于快速扩大生态影响力,吸引更多开发者在其硬件上构建应用。