NVIDIA 發佈 DFlash：Blackwell GPU 推理吞吐量最高提升 15 倍

隨著 AI 系統從單輪對話轉向協調多智能體工作流，低延遲推理的重要性日益凸顯。傳統的自迴歸大語言模型（LLM）逐個生成令牌，在延遲敏感的服務場景中容易限制 GPU 利用率並制約吞吐量。NVIDIA 最新發布的開源框架 DFlash，通過一種創新的推測解碼方法，正在改變這一局面。

DFlash 的核心突破在於其塊擴散草稿模型。與傳統的推測解碼依賴輕量級模型順序生成候選令牌不同，DFlash 的草稿器能在單次前向傳播中並行生成整塊候選令牌，隨後由目標模型進行並行驗證。這種將順序草稿轉化為塊並行 GPU 工作的方式，在保證輸出質量的前提下，大幅釋放了硬件算力。

在 NVIDIA Blackwell 架構上，這一優勢被進一步放大。根據 NVIDIA 開發者博客公佈的基準測試，在八路 DGX B300 系統上運行 TensorRT-LLM 時，DFlash 為 gpt-oss-120b 模型帶來了顯著的性能飛躍。在每用戶每秒 500-600 令牌的高交互性區間，DFlash 的吞吐量相比自迴歸解碼提升超過 15 倍，比當前先進的 EAGLE-3 推測解碼方案高出 1.5 倍。在批處理大小為 1 的最低併發點，DFlash 在 Blackwell 上的交互性也提升了一倍以上。

這種性能增益源於 DFlash 與 Blackwell 架構的深度契合。每個 Blackwell Ultra GPU 結合了兩個由每秒 10 TB 高帶寬芯片間互連連接的掩模版尺寸芯片，形成一個擁有 160 個流式多處理器和 640 個第五代張量核心的統一計算域。在解碼受限的區域，LLM 推理往往受限於內存移動和令牌生成的順序性，而非原始算力。DFlash 將部分工作轉化為並行塊草稿和驗證，使系統能更充分地利用 Blackwell 高達 15 PFLOPS 的密集 NVFP4 算力，從而在相同交互性目標下服務更多併發用戶。

性能提升並非僅限於超大模型。在 Llama 3.1 8B 模型上，DFlash 相比 EAGLE-3 的性能提升近一倍。在涵蓋編碼、RAG、推理、寫作、多語言和摘要等不同任務的 Speed-Bench 數據集上，DFlash 對 gpt-oss-120b 的平均交互性加速比為 2.3 倍，對 Llama 3.1 8B 為 2.8 倍。此外，在 vLLM 和 SGLang 框架上的測試也顯示，DFlash 為 Gemma 4 31B 帶來最高 5.8 倍的加速，為 Qwen3 8-B 帶來最高 5.1 倍的加速。

為了加速從研究到開發者的落地進程，研究團隊已在 Hugging Face 上發佈了 20 個 DFlash 檢查點，並提供適用於 NVIDIA Blackwell 和 Hopper GPU 的配置方案。更重要的是，DFlash 已集成到 SGLang、vLLM 和 TensorRT-LLM 等主流推理框架中。這意味著開發者無需進行代碼重構，即可直接採用 DFlash 來加速現有模型服務。

從產業視角看，DFlash 的推出直接回應了 AI 應用向更復雜、更實時方向演進的算力需求。對於代碼生成、交互式推理和多智能體協調等場景，嚴格的每用戶令牌延遲是保持用戶體驗的關鍵，而 DFlash 通過增加推測解碼路徑的並行度，優化了延遲與吞吐量之間的權衡。這不僅意味著單個 GPU 能承載更多併發用戶，顯著降低服務成本，也為構建響應更迅速、更復雜的 AI 原生應用鋪平了道路。隨著該技術被主流框架廣泛集成，其帶來的效率紅利有望快速滲透至整個 AI 推理服務市場。

NVIDIA 發佈 DFlash：Blackwell GPU 推理吞吐量最高提升 15 倍

延伸閱讀

相關深度報道

相關每日新聞