谷歌DeepMind近日正式發佈了一款名為DiffusionGemma的實驗性開源模型,其核心突破在於改變了大型語言模型生成文本的基本方式。當前廣泛使用的模型幾乎都是自迴歸式的——逐詞預測,每個新詞依賴前一個詞,這種順序過程使得交互式AI看起來像在打字。DiffusionGemma則另闢蹊徑,借鑑了擴散模型生成圖像的思路:從噪聲開始,一次性精煉整個文本塊,每個步驟並行去噪最多256個令牌,而非逐個生成。
該模型建立在Gemma 4的26億參數混合專家架構之上,每步僅激活38億參數,將擴散頭與Gemma 4架構相結合。這種“以塊為單位思考”的設計,對於延遲敏感的單用戶工作負載——如交互式聊天、代理循環或設備端助手——意味著響應速度足以跟上開發者的思考與迭代節奏。
英偉達迅速對DiffusionGemma進行了深度優化,使其在自家GPU產品線上運行效率大幅提升。傳統自迴歸模型在批大小為1時,本質上是內存帶寬受限的,大部分時間在等待內存而非計算,大量算力被閒置。擴散方式則將其轉變為計算密集型任務,恰好契合英偉達GPU的設計強項。Tensor Core加速密集並行運算,CUDA軟件棧讓模型從首日起即可高效運行,無需專門調優。
具體性能數據顯示,在單個NVIDIA H100 Tensor Core GPU上,DiffusionGemma在批大小為1時可實現每秒1000個令牌的生成速度;在DGX Spark上達到每秒150個令牌;在DGX Station上則提供最快本地推理,約比同等自迴歸模型在同一單用戶場景下快4倍。這一優勢覆蓋了英偉達從桌面到工作站的完整產品線:DGX Spark搭載GB10 Grace Blackwell超級芯片與128GB統一內存,預裝AI軟件棧,適合原型開發與微調;RTX PRO 6000工作站為專業工作流提供本地低延遲生成空間;DGX Station以748GB一致性內存實現每秒高達800個令牌的高速推理;GeForce RTX GPU也將很快獲得llama.cpp支持。
對於開發者而言,上手門檻較低。通過Hugging Face Transformers可直接在GeForce RTX 5090或DGX Spark上開箱測試;vLLM提供首日推理服務支持;Unsloth和NVIDIA NeMo框架可用於針對特定任務或領域進行微調,並配有現成的DGX Spark操作手冊。模型以寬鬆的Apache 2.0許可開放權重,完全在本地運行,無需雲端、無按令牌計費。
從產業角度看,DiffusionGemma的出現為端側AI推理開闢了新路徑。它直接回應了開發者與研究人員對低延遲、低成本、高隱私本地運行的需求,尤其在代理工作流與交互式應用中,並行生成帶來的速度提升可能改變用戶體驗預期。對英偉達而言,這種計算密集型模型進一步放大了其GPU在推理市場的硬件優勢,鞏固了從雲端到邊緣的AI算力護城河。同時,開放權重策略與多框架支持也有助於快速擴大生態影響力,吸引更多開發者在其硬件上構建應用。