輝達加速谷歌DeepMind擴散模型DiffusionGemma本地執行

輝達最佳化DiffusionGemma模型，可在本地PC至雲端GPU上實現並行文本生成。

谷歌DeepMind近日正式釋出了一款名為DiffusionGemma的實驗性開源模型，其核心突破在於改變了大型語言模型生成文本的基本方式。當前廣泛使用的模型幾乎都是自迴歸式的——逐詞預測，每個新詞依賴前一個詞，這種順序過程使得互動式AI看起來像在打字。DiffusionGemma則另闢蹊徑，借鑑了擴散模型生成影像的思路：從噪聲開始，一次性精煉整個文本塊，每個步驟並行去噪最多256個令牌，而非逐個生成。

該模型建立在Gemma 4的26億引數混合專家架構之上，每步僅啟用38億引數，將擴散頭與Gemma 4架構相結合。這種“以塊為單位思考”的設計，對於延遲敏感的單使用者工作負載——如互動式聊天、代理迴圈或裝置端助手——意味著響應速度足以跟上開發者的思考與迭代節奏。

輝達迅速對DiffusionGemma進行了深度最佳化，使其在自家GPU產品線上執行效率大幅提升。傳統自迴歸模型在批大小為1時，本質上是記憶體頻寬受限的，大部分時間在等待記憶體而非計算，大量算力被閒置。擴散方式則將其轉變為計算密集型任務，恰好契合輝達GPU的設計強項。Tensor Core加速密集並行運算，CUDA軟體棧讓模型從首日起即可高效執行，無需專門調優。

具體效能資料顯示，在單個NVIDIA H100 Tensor Core GPU上，DiffusionGemma在批大小為1時可實現每秒1000個令牌的生成速度；在DGX Spark上達到每秒150個令牌；在DGX Station上則提供最快本地推理，約比同等自迴歸模型在同一單使用者場景下快4倍。這一優勢覆蓋了輝達從桌面到工作站的完整產品線：DGX Spark搭載GB10 Grace Blackwell超級晶片與128GB統一記憶體，預裝AI軟體棧，適合原型開發與微調；RTX PRO 6000工作站為專業工作流提供本地低延遲生成空間；DGX Station以748GB一致性記憶體實現每秒高達800個令牌的高速推理；GeForce RTX GPU也將很快獲得llama.cpp支援。

對於開發者而言，上手門檻較低。通過Hugging Face Transformers可直接在GeForce RTX 5090或DGX Spark上開箱測試；vLLM提供首日推理服務支援；Unsloth和NVIDIA NeMo框架可用於針對特定任務或領域進行微調，並配有現成的DGX Spark操作手冊。模型以寬鬆的Apache 2.0許可開放權重，完全在本地執行，無需雲端、無按令牌計費。

從產業角度看，DiffusionGemma的出現為端側AI推理開闢了新路徑。它直接回應了開發者與研究人員對低延遲、低成本、高隱私本地執行的需求，尤其在代理工作流與互動式應用中，並行生成帶來的速度提升可能改變使用者體驗預期。對輝達而言，這種計算密集型模型進一步放大了其GPU在推理市場的硬體優勢，鞏固了從雲端到邊緣的AI算力護城河。同時，開放權重策略與多框架支援也有助於快速擴大生態影響力，吸引更多開發者在其硬體上構建應用。

輝達加速谷歌DeepMind擴散模型DiffusionGemma本地執行

延伸閱讀

相關深度報道

相關每日新聞