DeepSeek V4 推出 DSpark 框架，推理速度提升最高 85%

DeepSeek V4更新推出DSpark投机解码框架，推理速度提升80%，并开源DeepSpec框架。

DeepSeek 正式为 DeepSeek V4 系列模型推出了一项专注于工程落地的更新——投机解码框架 DSpark，并同步开源了支撑该方案的全栈代码库 DeepSpec。此次更新并非发布全新架构模型，而是在现有 DeepSeek-V4-Pro 基础上引入推测性解码模块，重点解决生产环境中大语言模型（LLM）推理的延迟与吞吐量瓶颈。

DSpark 已被部署到 DeepSeek-V4 的 Flash 和 Pro 版本线上真实流量中。根据技术报告，在保持总体吞吐量不变的前提下，DSpark 将 Flash 模型的用户生成速度提升了 60% 至 85%，Pro 模型提升了 57% 至 78%，相比此前部署的单 Token 生成基准（MTP-1）实现了显著加速。

推测性解码的核心思路是引入一个轻量级“草稿模型”，预先并行生成多个候选 Token，再由目标模型批量验证和接受，从而将传统的串行逐 Token 生成转变为并行批量校验。DSpark 在此基础上做了两项关键创新。一是 半自回归生成架构，在保留并行草稿模型高吞吐优势的同时，加入轻量级串行模块对 Token 间依赖关系建模，缓解并行生成在后续位置容易出现的接受率衰减问题。二是 硬件感知的置信度调度验证，通过一个置信度头评估每个 Token 的存活概率，结合实时引擎吞吐量特征，动态为每个请求定制最优验证长度，只将算力分配给预期回报最高的 Token，避免高负载时盲目验证大概率会被拒绝的尾部 Token 造成的算力浪费。

为在真实线上基础设施中落地，DSpark 的调度器采用异步机制，兼容零开销调度和连续 CUDA 图回放，利用历史预测决定动态截断长度，从而隐藏调度延迟、避免 GPU 流水线停顿，同时保证目标模型输出分布完全无损。在涵盖数学推理、代码生成和日常对话的多个测试中，DSpark 在 Qwen3 系列目标模型上的平均接受长度比 Eagle3 提升 26.7% 至 30.9%，比 DFlash 提升 16.3% 至 18.4%。

与 DSpark 一同开源的 DeepSpec 是一套用于训练和评估推测性解码草稿模型的全栈代码库，将整体流程拆分为数据准备、训练和评估三个阶段。数据准备阶段需下载提示词数据、用推理引擎对目标模型重新生成答案并构建目标缓存，以默认的 Qwen3-4B 配置为例，目标缓存体积可达约 38 TB。训练阶段支持通过脚本在多 GPU 环境下启动，评估阶段则覆盖 GSM8K、MATH500、HumanEval、MT-Bench 等多个基准任务。DeepSpec 目前内置 DSpark、DFlash 和 Eagle3 三种草稿模型，支持 Qwen3 和 Gemma 目标模型系列。

DeepSpec 的开源将此前多散落于各研究团队内部的推测性解码工程实践，整合为一套可复现、可扩展的标准化工具链。对于希望为自有大模型加速推理的开发者和工程师而言，这意味着可以直接在成熟框架上训练定制草稿模型，跳过大量重复的基础设施搭建工作。在当前 AI 应用大规模落地的背景下，推理效率的提升直接关系到服务成本和用户体验，DSpark 的工程化部署为行业提供了一个降低延迟、提高吞吐的可行路径。

DeepSeek V4 推出 DSpark 框架，推理速度提升最高 85%

延伸阅读

相关深度报道

相关每日新闻