DeepSeek 正式为 DeepSeek V4 系列模型推出了一项专注于工程落地的更新——投机解码框架 DSpark,并同步开源了支撑该方案的全栈代码库 DeepSpec。此次更新并非发布全新架构模型,而是在现有 DeepSeek-V4-Pro 基础上引入推测性解码模块,重点解决生产环境中大语言模型(LLM)推理的延迟与吞吐量瓶颈。
DSpark 已被部署到 DeepSeek-V4 的 Flash 和 Pro 版本线上真实流量中。根据技术报告,在保持总体吞吐量不变的前提下,DSpark 将 Flash 模型的用户生成速度提升了 60% 至 85%,Pro 模型提升了 57% 至 78%,相比此前部署的单 Token 生成基准(MTP-1)实现了显著加速。
推测性解码的核心思路是引入一个轻量级“草稿模型”,预先并行生成多个候选 Token,再由目标模型批量验证和接受,从而将传统的串行逐 Token 生成转变为并行批量校验。DSpark 在此基础上做了两项关键创新。一是 半自回归生成架构,在保留并行草稿模型高吞吐优势的同时,加入轻量级串行模块对 Token 间依赖关系建模,缓解并行生成在后续位置容易出现的接受率衰减问题。二是 硬件感知的置信度调度验证,通过一个置信度头评估每个 Token 的存活概率,结合实时引擎吞吐量特征,动态为每个请求定制最优验证长度,只将算力分配给预期回报最高的 Token,避免高负载时盲目验证大概率会被拒绝的尾部 Token 造成的算力浪费。
为在真实线上基础设施中落地,DSpark 的调度器采用异步机制,兼容零开销调度和连续 CUDA 图回放,利用历史预测决定动态截断长度,从而隐藏调度延迟、避免 GPU 流水线停顿,同时保证目标模型输出分布完全无损。在涵盖数学推理、代码生成和日常对话的多个测试中,DSpark 在 Qwen3 系列目标模型上的平均接受长度比 Eagle3 提升 26.7% 至 30.9%,比 DFlash 提升 16.3% 至 18.4%。
与 DSpark 一同开源的 DeepSpec 是一套用于训练和评估推测性解码草稿模型的全栈代码库,将整体流程拆分为数据准备、训练和评估三个阶段。数据准备阶段需下载提示词数据、用推理引擎对目标模型重新生成答案并构建目标缓存,以默认的 Qwen3-4B 配置为例,目标缓存体积可达约 38 TB。训练阶段支持通过脚本在多 GPU 环境下启动,评估阶段则覆盖 GSM8K、MATH500、HumanEval、MT-Bench 等多个基准任务。DeepSpec 目前内置 DSpark、DFlash 和 Eagle3 三种草稿模型,支持 Qwen3 和 Gemma 目标模型系列。
DeepSpec 的开源将此前多散落于各研究团队内部的推测性解码工程实践,整合为一套可复现、可扩展的标准化工具链。对于希望为自有大模型加速推理的开发者和工程师而言,这意味着可以直接在成熟框架上训练定制草稿模型,跳过大量重复的基础设施搭建工作。在当前 AI 应用大规模落地的背景下,推理效率的提升直接关系到服务成本和用户体验,DSpark 的工程化部署为行业提供了一个降低延迟、提高吞吐的可行路径。