DeepSeek 发布 DSpark 框架，V4 模型单用户生成速度提升最高 85%

DeepSeek 在开源路线上再落一子。这家正大规模扩张团队的 AI 公司，今日与北京大学团队联合发布论文，推出新的大模型推理加速框架 DSpark，并已将其部署到 DeepSeek-V4-Flash preview 和 DeepSeek-V4-Pro preview 的生产服务中，替代此前的 MTP-1 方案。

线上真实用户流量的测试数据显示，在系统总吞吐水平相同的情况下，DSpark 将 V4-Flash 的单用户生成速度提升了 60% 至 85%，将 V4-Pro 的单用户生成速度提升了 57% 至 78%。这意味着用户在对话、代码生成等高交互场景下，等待模型回复的时间将显著缩短。

大模型生成文本的“挤牙膏”感，根源在于主流的自回归解码方式——模型每生成一个新 token，都需以前文为条件做一次前向计算，输出越长延迟越高。业界为此引入推测解码，思路是让一个轻量级草稿模型先生成候选 token，再由目标模型并行验证，从而在不改变输出分布的前提下提高生成速度。

但现有方案各有短板。自回归草稿模型虽候选质量高，但自身生成速度慢；并行草稿模型虽快，却因候选 token 间缺乏依赖关系，越往后被目标模型接受的概率越低，论文将这种现象称为后缀衰减。更关键的是，在高并发线上服务中，机械地验证固定长度的候选块会浪费目标模型的批处理容量，挤压其他用户请求。

DSpark 的解法可概括为“草稿写得更像样，审稿更会挑重点”。在生成侧，它采用半自回归架构，保留并行草稿模型的主干速度，同时在输出端加入轻量级顺序模块，让后续 token 能参考已采样 token 的衔接关系，减少后缀衰减。论文默认使用计算成本低的 Markov head 来建模相邻 token 转移关系。

在验证侧，DSpark 引入基于置信度调度的验证。系统为每个候选位置预测置信度分数，再由硬件感知前缀调度器根据当前系统负载、各位置置信度及引擎在不同批大小下的吞吐曲线，动态决定每个请求该验证多少 token。系统空闲时验证更长前缀以产出更多有效 token，负载升高时则缩短低置信度请求的验证长度，减少资源占用。

离线实验覆盖 Qwen3-4B、Qwen3-8B、Qwen3-14B 和 Gemma4-12B 四个目标模型，以及数学推理、代码生成和日常聊天三类场景。结果显示，DSpark 的宏平均接受长度相比自回归草稿模型 Eagle3 提升 26.7% 至 30.9%，相比并行草稿模型 DFlash 提升 16.3% 至 18.4%。接受长度越高，意味着草稿被大模型认可的比例越大，推理加速空间也越大。

不同任务间差异明显。以 Qwen3-4B 为例，DSpark 在数学任务上的平均接受长度为 5.57，代码任务为 5.12，聊天任务仅为 3.49。数学和代码更结构化，续写路径稳定；开放式聊天不确定性更高，候选 token 更易被拒绝。这印证了固定验证长度会浪费计算资源，动态调度确有必要。

线上部署数据更凸显 DSpark 的工程价值。在 V4-Flash 每用户每秒 80 token 的服务目标下，DSpark 较 MTP-1 将系统总吞吐提升 51%；在更严格的 120 token/s/user 目标下，MTP-1 已接近承载边界，DSpark 的名义吞吐优势达到 661%。V4-Pro 在 35 token/s/user 目标下吞吐提升 52%，在 50 token/s/user 严格目标下名义优势达 406%。

DeepSeek 同步宣布开放 DSpark 模型权重，包括 V4-Flash 和 V4-Pro 预览版对应的模型检查点，并开源了面向推测解码训练的代码库 DeepSpec，内含 Eagle3、DFlash 和 DSpark 实现。

从产业视角看，DSpark 的发布揭示了大模型推理优化的一个关键转向：单纯让草稿模型一次生成更多 token 已非最优解，如何根据任务特性与系统负载动态分配验证资源，才是提升真实服务效率的核心。这对依赖大模型 API 的应用开发者而言，意味着更低的延迟与更高的吞吐上限；对基础设施层，则指向更精细的 GPU 利用率管理。在 AI 应用加速落地的当下，推理引擎的系统工程能力正成为模型竞争力的重要一极。

DeepSeek 发布 DSpark 框架，V4 模型单用户生成速度提升最高 85%

延伸阅读

相关深度报道

相关每日新闻