DeepSeek V4 推出 DSpark 框架，推理速度提升最高 85%

DeepSeek V4更新推出DSpark投機解碼框架，推理速度提升80%，並開源DeepSpec框架。

DeepSeek 正式為 DeepSeek V4 系列模型推出了一項專注於工程落地的更新——投機解碼框架 DSpark，並同步開源了支撐該方案的全棧代碼庫 DeepSpec。此次更新並非發佈全新架構模型，而是在現有 DeepSeek-V4-Pro 基礎上引入推測性解碼模塊，重點解決生產環境中大語言模型（LLM）推理的延遲與吞吐量瓶頸。

DSpark 已被部署到 DeepSeek-V4 的 Flash 和 Pro 版本線上真實流量中。根據技術報告，在保持總體吞吐量不變的前提下，DSpark 將 Flash 模型的用戶生成速度提升了 60% 至 85%，Pro 模型提升了 57% 至 78%，相比此前部署的單 Token 生成基準（MTP-1）實現了顯著加速。

推測性解碼的核心思路是引入一個輕量級“草稿模型”，預先並行生成多個候選 Token，再由目標模型批量驗證和接受，從而將傳統的串行逐 Token 生成轉變為並行批量校驗。DSpark 在此基礎上做了兩項關鍵創新。一是 半自迴歸生成架構，在保留並行草稿模型高吞吐優勢的同時，加入輕量級串行模塊對 Token 間依賴關係建模，緩解並行生成在後續位置容易出現的接受率衰減問題。二是 硬件感知的置信度調度驗證，通過一個置信度頭評估每個 Token 的存活概率，結合實時引擎吞吐量特徵，動態為每個請求定製最優驗證長度，只將算力分配給預期回報最高的 Token，避免高負載時盲目驗證大概率會被拒絕的尾部 Token 造成的算力浪費。

為在真實線上基礎設施中落地，DSpark 的調度器採用異步機制，兼容零開銷調度和連續 CUDA 圖回放，利用歷史預測決定動態截斷長度，從而隱藏調度延遲、避免 GPU 流水線停頓，同時保證目標模型輸出分佈完全無損。在涵蓋數學推理、代碼生成和日常對話的多個測試中，DSpark 在 Qwen3 系列目標模型上的平均接受長度比 Eagle3 提升 26.7% 至 30.9%，比 DFlash 提升 16.3% 至 18.4%。

與 DSpark 一同開源的 DeepSpec 是一套用於訓練和評估推測性解碼草稿模型的全棧代碼庫，將整體流程拆分為數據準備、訓練和評估三個階段。數據準備階段需下載提示詞數據、用推理引擎對目標模型重新生成答案並構建目標緩存，以默認的 Qwen3-4B 配置為例，目標緩存體積可達約 38 TB。訓練階段支持通過腳本在多 GPU 環境下啟動，評估階段則覆蓋 GSM8K、MATH500、HumanEval、MT-Bench 等多個基準任務。DeepSpec 目前內置 DSpark、DFlash 和 Eagle3 三種草稿模型，支持 Qwen3 和 Gemma 目標模型系列。

DeepSpec 的開源將此前多散落於各研究團隊內部的推測性解碼工程實踐，整合為一套可復現、可擴展的標準化工具鏈。對於希望為自有大模型加速推理的開發者和工程師而言，這意味著可以直接在成熟框架上訓練定製草稿模型，跳過大量重複的基礎設施搭建工作。在當前 AI 應用大規模落地的背景下，推理效率的提升直接關係到服務成本和用戶體驗，DSpark 的工程化部署為行業提供了一個降低延遲、提高吞吐的可行路徑。

DeepSeek V4 推出 DSpark 框架，推理速度提升最高 85%

延伸閱讀

相關深度報道

相關每日新聞