DeepSeek 正式為 DeepSeek V4 系列模型推出了一項專注於工程落地的更新——投機解碼框架 DSpark,並同步開源了支撐該方案的全棧代碼庫 DeepSpec。此次更新並非發佈全新架構模型,而是在現有 DeepSeek-V4-Pro 基礎上引入推測性解碼模塊,重點解決生產環境中大語言模型(LLM)推理的延遲與吞吐量瓶頸。

DSpark 已被部署到 DeepSeek-V4 的 FlashPro 版本線上真實流量中。根據技術報告,在保持總體吞吐量不變的前提下,DSpark 將 Flash 模型的用戶生成速度提升了 60% 至 85%,Pro 模型提升了 57% 至 78%,相比此前部署的單 Token 生成基準(MTP-1)實現了顯著加速。

推測性解碼的核心思路是引入一個輕量級“草稿模型”,預先並行生成多個候選 Token,再由目標模型批量驗證和接受,從而將傳統的串行逐 Token 生成轉變為並行批量校驗。DSpark 在此基礎上做了兩項關鍵創新。一是 半自迴歸生成架構,在保留並行草稿模型高吞吐優勢的同時,加入輕量級串行模塊對 Token 間依賴關係建模,緩解並行生成在後續位置容易出現的接受率衰減問題。二是 硬件感知的置信度調度驗證,通過一個置信度頭評估每個 Token 的存活概率,結合實時引擎吞吐量特徵,動態為每個請求定製最優驗證長度,只將算力分配給預期回報最高的 Token,避免高負載時盲目驗證大概率會被拒絕的尾部 Token 造成的算力浪費。

為在真實線上基礎設施中落地,DSpark 的調度器採用異步機制,兼容零開銷調度和連續 CUDA 圖回放,利用歷史預測決定動態截斷長度,從而隱藏調度延遲、避免 GPU 流水線停頓,同時保證目標模型輸出分佈完全無損。在涵蓋數學推理、代碼生成和日常對話的多個測試中,DSpark 在 Qwen3 系列目標模型上的平均接受長度比 Eagle3 提升 26.7% 至 30.9%,比 DFlash 提升 16.3% 至 18.4%。

與 DSpark 一同開源的 DeepSpec 是一套用於訓練和評估推測性解碼草稿模型的全棧代碼庫,將整體流程拆分為數據準備、訓練和評估三個階段。數據準備階段需下載提示詞數據、用推理引擎對目標模型重新生成答案並構建目標緩存,以默認的 Qwen3-4B 配置為例,目標緩存體積可達約 38 TB。訓練階段支持通過腳本在多 GPU 環境下啟動,評估階段則覆蓋 GSM8KMATH500HumanEvalMT-Bench 等多個基準任務。DeepSpec 目前內置 DSpark、DFlash 和 Eagle3 三種草稿模型,支持 Qwen3 和 Gemma 目標模型系列。

DeepSpec 的開源將此前多散落於各研究團隊內部的推測性解碼工程實踐,整合為一套可復現、可擴展的標準化工具鏈。對於希望為自有大模型加速推理的開發者和工程師而言,這意味著可以直接在成熟框架上訓練定製草稿模型,跳過大量重複的基礎設施搭建工作。在當前 AI 應用大規模落地的背景下,推理效率的提升直接關係到服務成本和用戶體驗,DSpark 的工程化部署為行業提供了一個降低延遲、提高吞吐的可行路徑。