DeepSeek发布DSpark框架，AI响应速度提升最高85%

DeepSeek发布DSpark框架，通过小模型预选token、大模型批量验证，将用户响应速度提升60%至85%。

中国AI公司DeepSeek发布了一项名为DSpark的新推理框架，据称可将单用户AI响应速度提升60%至85%。该技术通过重新设计文本生成流程，在现有硬件上挤出更高性能，为面临美国芯片出口管制的中国AI产业提供了战略性效率突破。

当前主流大语言模型通常逐词生成文本，导致GPU利用率偏低，长回复等待时间过长。DSpark采用推测解码机制，由一个小型轻量模型快速提出候选答案，再由大型模型进行批量验证。与常见做法不同，DSpark生成的是小词组而非单个令牌，从源头提升整体效率。此外，框架内置的置信度系统可根据计算负载动态调整验证深度，减少因拒绝候选令牌而产生的无效算力消耗。

DeepSeek公布的测试数据显示，在DeepSeek-V4-Flash和DeepSeek-V4-Pro两款模型的实际流量环境下，DSpark将吞吐量与单用户生成速度的性能前沿同时推至远超MTP基线的水平。公司还使用Google DeepMind的Gemma和阿里巴巴的Qwen等开放模型进行了验证，表明该方法具有跨模型通用性。DSpark框架及联合北京大学开发的DeepSeek-V4-Pro模型已在Hugging Face和GitHub上以MIT许可证开源，技术细节详见相关论文。

在美国持续收紧对华高端芯片出口管制的背景下，DSpark的战略意义不容忽视。更快的推理速度意味着处理相同请求所需的芯片数量减少，基础设施成本随之降低。这对数据中心建设与高性能芯片储备均落后于美国的中国和欧盟而言，提供了一条用更少硬件获取更多AI性能的路径。

然而，效率提升对芯片总需求的长期影响仍存变数。杰文斯悖论指出，资源使用效率的提高往往反而刺激更大规模的需求。推理效率提升确实降低了单次查询的芯片需求，但释放出的算力可能迅速被更多AI请求、更长上下文或新应用所吸收，总芯片需求未必下降。DeepSeek自身也承认，DSpark“实现了此前无法企及的性能层级，改变了服务系统的帕累托前沿”。

短期来看，在芯片供应紧张且出口限制持续的格局下，这类效率增益仍为中国争取到宝贵的战略缓冲。它削弱了美国将芯片作为地缘政治杠杆的能力，让中国AI产业在受限条件下仍能向更高性能层级迈进。对于关注AI算力叙事与地缘估值的投资者而言，DSpark代表的不只是一项工程优化，更是产业链在硬件约束下寻找替代路径的典型案例。

DeepSeek发布DSpark框架，AI响应速度提升最高85%

延伸阅读

相关深度报道

相关每日新闻