谷歌開源擴散模型DiffusionGemma，4090單卡可跑

谷歌DeepMind釋出DiffusionGemma，文本生成速度可達自迴歸模型的4倍。

谷歌DeepMind在6月11日凌晨正式釋出了一款名為DiffusionGemma的開放實驗模型，將影像生成領域成熟的擴散模型思路引入文本生成。這款模型基於Apache 2.0許可協議開源，擁有260億引數，採用混合專家架構，推理時僅啟用約38億引數，使其在消費級顯示卡上也能流暢執行。

與當前主流的自迴歸語言模型不同，DiffusionGemma不再像打字機那樣從左到右逐個token生成文本，而是一次性輸出包含256個token的完整段落。它的工作方式更接近AI影像生成模型：先隨機初始化一組佔位token，再通過多輪迭代不斷修正和最佳化，最終收斂為通順可用的文本。這種並行生成模式大幅提升了硬體利用率，將解碼瓶頸從記憶體頻寬轉移至計算單元。

DeepMind與輝達聯合完成了全硬體棧最佳化。模型已針對GeForce RTX 5090和RTX 4090顯示卡完成量化適配，在單張H100上生成速度可達每秒1000個token以上，在RTX 5090上可達每秒700個token以上。此外，DiffusionGemma原生支援輝達的NVFP4技術，能在幾乎不損失生成精度的前提下進一步提升計算吞吐量。無論是搭載Hopper或Blackwell架構的企業級裝置，還是面向本地桌面部署的DGX Spark、DGX Station，以及面向AI專業人員的RTX PRO系列產品，都能流暢執行該模型。

在功能層面，DiffusionGemma具備一些自迴歸模型難以實現的能力。它可以同步處理整段內容，精準補全複雜的Markdown格式，近乎即時地生成並渲染程式碼，甚至能根據文字描述生成3D SVG圖形。模型還具備智慧自糾錯特性，在迭代過程中可一次性對整段文本進行校驗和修正。開發者可以通過微調進一步提升其在特定任務中的表現，例如開源框架Unsloth已展示其在數獨任務上的微調效果，雙向注意力機制使其在處理這類前後關聯緊密的任務時比自迴歸模型更具優勢。

不過，DiffusionGemma並非全能選手。DeepMind明確指出，在生成質量上它不及標準版Gemma 4。資料顯示，其單請求生成token的速度約為Gemma 4的3.65倍，但整體輸出質量有所不及。對於追求極致生成質量的應用場景，官方仍建議使用Gemma 4。

另一個關鍵侷限在於適用場景。DiffusionGemma的並行解碼優勢主要體現在本地部署和低併發推理中，在單張加速卡、中小批次任務下效能表現最為突出。但在高查詢量的雲端服務場景中，自迴歸模型可以更充分地榨取計算資源，而DiffusionGemma的並行優勢會逐漸弱化，甚至可能推高服務成本。因此，這款模型更適合個人開發者和小團隊在本地進行高速互動式實驗，而非大規模雲端部署。

從產業視角看，DiffusionGemma的推出並非宣告文本擴散模型將取代自迴歸架構，而是為端側AI和本地即時互動場景提供了一條新的技術路徑。隨著本地推理需求持續增長，如何在生成質量、推理速度和硬體成本之間找到平衡，正成為大模型發展的重要命題。DeepMind此次開源實驗，將這一探索交到了開發者社群手中，其最終價值仍有待實際應用場景的進一步驗證。

谷歌開源擴散模型DiffusionGemma，4090單卡可跑

延伸閱讀

相關深度報道

相關每日新聞