Google DeepMind 發佈 DiffusionGemma：26B MoE 擴散模型，推理速度超 1100 tokens/秒

Google DeepMind推出基於26B A4B MoE架構的DiffusionGemma模型，支持圖像文本生成。

Google DeepMind 正式推出了一款名為 DiffusionGemma 的開源多模態模型，其核心創新在於用離散擴散生成方式取代了主流大語言模型沿用的逐 token 自迴歸解碼。該模型已在 Hugging Face 上線，採用 Apache 2.0 許可證，由 Google DeepMind 團隊開發。

從架構上看，DiffusionGemma 建立在 Gemma 4 的 26B A4B 混合專家基礎之上，總參數量為 25.2B，每次推理激活的參數僅 3.8B。它採用編碼器-解碼器設計：編碼器負責處理提示上下文並生成 KV 緩存，解碼器則通過雙向注意力機制，對一塊被稱為“畫布”的 token 塊進行並行去噪。具體而言，模型一次前向傳播可同時處理 256 個 token，在 H100 GPU 上使用 FP8 精度、低批次推理場景下，單用戶生成速度可突破 1100 tokens/秒。

這種“塊自迴歸”加擴散採樣的策略，打破了傳統因果語言模型逐 token 串行生成的順序瓶頸。推理時，模型會迭代地對一整塊 token 去噪，待該塊完全去噪後再由編碼器處理並追加到 KV 緩存中，接著生成下一塊。由於簡單提示或結構化任務所需的去噪步數更少，推理速度還可根據任務複雜度動態調整。

在能力層面，DiffusionGemma 支持文本、圖像、視頻的混合輸入，上下文窗口最長可達 256K tokens。視覺方面，它能處理可變寬高比和分辨率的圖像，具備物體檢測、文檔解析、圖表理解、多語言 OCR 以及視頻內容分析等功能。模型內置了思考模式，可在回答前進行逐步推理，並原生支持函數調用，便於構建智能體工作流。語言覆蓋上，模型開箱即支持 35 種以上語言，預訓練語料則涉及 140 多種語言。

官方公佈的基準測試顯示，DiffusionGemma 在多項指標上展現了競爭力。例如，在 MMLU Pro 上達到 77.6%，AIME 2026 無工具條件下為 69.1%，LiveCodeBench v6 得分 69.1%，GPQA Diamond 為 73.2%。視覺任務中，MMMU Pro 取得 54.3%，MATH-Vision 達到 70.5%。不過，與同門的 Gemma 4 26B A4B 相比，其在部分純文本推理基準上仍有差距，這反映出擴散生成在推理深度與速度之間的取捨。

值得關注的是，DiffusionGemma 專門針對小批次、單加速器場景做了推理優化，這使其在本地部署或邊緣設備上具備實用潛力。對於追求高吞吐、低延遲的 AI 應用開發者而言，這種架構轉向提供了一條不同於單純擴大模型規模的新思路。Google DeepMind 此次將擴散模型從圖像生成領域拓展到大語言模型，可能推動業界重新審視生成式模型的底層解碼範式。

Google DeepMind 發佈 DiffusionGemma：26B MoE 擴散模型，推理速度超 1100 tokens/秒

延伸閱讀

相關深度報道

相關每日新聞