DeepSeek长期面临的服务器卡顿与高峰宕机问题,可能迎来根本性缓解。创始人梁文锋以作者身份发表了一篇题为《DSpark:基于置信度调度的推测解码与半自回归生成》的论文,提出一种新的推理加速方案,实测可将生成速度提升60%至80%,并在高并发场景下显著提高系统吞吐量。
这篇论文是梁文锋自2024年发表《DeepSeek LLM》以来的第12篇挂名论文。值得注意的是,DSpark的核心思路与他在2010年完成的硕士论文《基于低成本PTZ摄像机的目标跟踪算法研究》一脉相承——当时他用几百元的民用摄像头,通过算法优化达到接近数万元工业相机的跟踪精度。时隔16年,他依然在用算法为硬件成本寻找替代方案。
DSpark解决的是大模型推理中的一个根本矛盾。传统自回归生成模式下,模型每输出一个token,都必须重新处理之前所有已生成的文本,导致速度瓶颈。业界提出的投机解码技术,通过引入一个轻量草稿模型预先猜测一串token,再由大模型一次性验证,从而跳过重复计算。但现有方案要么猜得太慢,要么猜得太多导致后期token正确率急剧下降,形成所谓的“后缀衰减”现象。
DSpark的创新在于将两种策略融合为半自回归生成,并引入置信度调度验证机制。草稿模型快速生成一批候选token后,系统为每个token打出置信度分数,然后根据当前GPU负载动态决定提交验证的批次大小。服务器空闲时,尽可能多验证以获取更多正确token;高峰繁忙时,只提交高分批次,避免将算力浪费在大概率错误的token上。
实测数据显示,在严格的低延迟要求下,DSpark的吞吐量可达前代方案MTP-1的6倍以上。在中等负载场景中,单GPU总吞吐量从10000 token/秒提升至15100 token/秒,增幅达51%。论文从数学上证明,投机解码的拒绝采样机制可保证输出分布与原模型完全一致,离线测试也未发现回答质量出现统计显著差异。
对DeepSeek而言,推理成本是永续性支出,用户每问一个问题,GPU就要运行一次。DSpark在不增加硬件的前提下大幅提升单卡服务能力,意味着单位token成本显著下降。DeepSeek的API定价本就处于行业最低水平,成本进一步压缩后,可能带来token价格下调或免费额度提升。
更具产业影响的是,DeepSeek此次不仅发布了模型权重,还将专门用于训练投机解码草稿模型的DeepSpec训练框架完整开源。这意味着其他模型厂商可以用这套工具箱为自己的模型训练草稿模型,从而拉低整个行业的推理成本基准线。
梁文锋在DeepSeek同时扮演投资者、管理者和研究者三重角色。DeepSeek由他创立的幻方量化用利润持续供养,期间多次拒绝外部投资。这种决策闭环使得“用算法优化替代硬件堆叠”成为贯穿公司研发的主线,DSpark正是这一逻辑的最新产物。