隨著 AI 系統從單輪對話轉向協調多智能體工作流,低延遲推理的重要性日益凸顯。傳統的自迴歸大語言模型(LLM)逐個生成令牌,在延遲敏感的服務場景中容易限制 GPU 利用率並制約吞吐量。NVIDIA 最新發布的開源框架 DFlash,通過一種創新的推測解碼方法,正在改變這一局面。
DFlash 的核心突破在於其塊擴散草稿模型。與傳統的推測解碼依賴輕量級模型順序生成候選令牌不同,DFlash 的草稿器能在單次前向傳播中並行生成整塊候選令牌,隨後由目標模型進行並行驗證。這種將順序草稿轉化為塊並行 GPU 工作的方式,在保證輸出質量的前提下,大幅釋放了硬件算力。
在 NVIDIA Blackwell 架構上,這一優勢被進一步放大。根據 NVIDIA 開發者博客公佈的基準測試,在八路 DGX B300 系統上運行 TensorRT-LLM 時,DFlash 為 gpt-oss-120b 模型帶來了顯著的性能飛躍。在每用戶每秒 500-600 令牌的高交互性區間,DFlash 的吞吐量相比自迴歸解碼提升超過 15 倍,比當前先進的 EAGLE-3 推測解碼方案高出 1.5 倍。在批處理大小為 1 的最低併發點,DFlash 在 Blackwell 上的交互性也提升了一倍以上。
這種性能增益源於 DFlash 與 Blackwell 架構的深度契合。每個 Blackwell Ultra GPU 結合了兩個由每秒 10 TB 高帶寬芯片間互連連接的掩模版尺寸芯片,形成一個擁有 160 個流式多處理器和 640 個第五代張量核心的統一計算域。在解碼受限的區域,LLM 推理往往受限於內存移動和令牌生成的順序性,而非原始算力。DFlash 將部分工作轉化為並行塊草稿和驗證,使系統能更充分地利用 Blackwell 高達 15 PFLOPS 的密集 NVFP4 算力,從而在相同交互性目標下服務更多併發用戶。
性能提升並非僅限於超大模型。在 Llama 3.1 8B 模型上,DFlash 相比 EAGLE-3 的性能提升近一倍。在涵蓋編碼、RAG、推理、寫作、多語言和摘要等不同任務的 Speed-Bench 數據集上,DFlash 對 gpt-oss-120b 的平均交互性加速比為 2.3 倍,對 Llama 3.1 8B 為 2.8 倍。此外,在 vLLM 和 SGLang 框架上的測試也顯示,DFlash 為 Gemma 4 31B 帶來最高 5.8 倍的加速,為 Qwen3 8-B 帶來最高 5.1 倍的加速。
為了加速從研究到開發者的落地進程,研究團隊已在 Hugging Face 上發佈了 20 個 DFlash 檢查點,並提供適用於 NVIDIA Blackwell 和 Hopper GPU 的配置方案。更重要的是,DFlash 已集成到 SGLang、vLLM 和 TensorRT-LLM 等主流推理框架中。這意味著開發者無需進行代碼重構,即可直接採用 DFlash 來加速現有模型服務。
從產業視角看,DFlash 的推出直接回應了 AI 應用向更復雜、更實時方向演進的算力需求。對於代碼生成、交互式推理和多智能體協調等場景,嚴格的每用戶令牌延遲是保持用戶體驗的關鍵,而 DFlash 通過增加推測解碼路徑的並行度,優化了延遲與吞吐量之間的權衡。這不僅意味著單個 GPU 能承載更多併發用戶,顯著降低服務成本,也為構建響應更迅速、更復雜的 AI 原生應用鋪平了道路。隨著該技術被主流框架廣泛集成,其帶來的效率紅利有望快速滲透至整個 AI 推理服務市場。