NVIDIA 发布 DFlash：Blackwell GPU 推理吞吐量最高提升 15 倍

随着 AI 系统从单轮对话转向协调多智能体工作流，低延迟推理的重要性日益凸显。传统的自回归大语言模型（LLM）逐个生成令牌，在延迟敏感的服务场景中容易限制 GPU 利用率并制约吞吐量。NVIDIA 最新发布的开源框架 DFlash，通过一种创新的推测解码方法，正在改变这一局面。

DFlash 的核心突破在于其块扩散草稿模型。与传统的推测解码依赖轻量级模型顺序生成候选令牌不同，DFlash 的草稿器能在单次前向传播中并行生成整块候选令牌，随后由目标模型进行并行验证。这种将顺序草稿转化为块并行 GPU 工作的方式，在保证输出质量的前提下，大幅释放了硬件算力。

在 NVIDIA Blackwell 架构上，这一优势被进一步放大。根据 NVIDIA 开发者博客公布的基准测试，在八路 DGX B300 系统上运行 TensorRT-LLM 时，DFlash 为 gpt-oss-120b 模型带来了显著的性能飞跃。在每用户每秒 500-600 令牌的高交互性区间，DFlash 的吞吐量相比自回归解码提升超过 15 倍，比当前先进的 EAGLE-3 推测解码方案高出 1.5 倍。在批处理大小为 1 的最低并发点，DFlash 在 Blackwell 上的交互性也提升了一倍以上。

这种性能增益源于 DFlash 与 Blackwell 架构的深度契合。每个 Blackwell Ultra GPU 结合了两个由每秒 10 TB 高带宽芯片间互连连接的掩模版尺寸芯片，形成一个拥有 160 个流式多处理器和 640 个第五代张量核心的统一计算域。在解码受限的区域，LLM 推理往往受限于内存移动和令牌生成的顺序性，而非原始算力。DFlash 将部分工作转化为并行块草稿和验证，使系统能更充分地利用 Blackwell 高达 15 PFLOPS 的密集 NVFP4 算力，从而在相同交互性目标下服务更多并发用户。

性能提升并非仅限于超大模型。在 Llama 3.1 8B 模型上，DFlash 相比 EAGLE-3 的性能提升近一倍。在涵盖编码、RAG、推理、写作、多语言和摘要等不同任务的 Speed-Bench 数据集上，DFlash 对 gpt-oss-120b 的平均交互性加速比为 2.3 倍，对 Llama 3.1 8B 为 2.8 倍。此外，在 vLLM 和 SGLang 框架上的测试也显示，DFlash 为 Gemma 4 31B 带来最高 5.8 倍的加速，为 Qwen3 8-B 带来最高 5.1 倍的加速。

为了加速从研究到开发者的落地进程，研究团队已在 Hugging Face 上发布了 20 个 DFlash 检查点，并提供适用于 NVIDIA Blackwell 和 Hopper GPU 的配置方案。更重要的是，DFlash 已集成到 SGLang、vLLM 和 TensorRT-LLM 等主流推理框架中。这意味着开发者无需进行代码重构，即可直接采用 DFlash 来加速现有模型服务。

从产业视角看，DFlash 的推出直接回应了 AI 应用向更复杂、更实时方向演进的算力需求。对于代码生成、交互式推理和多智能体协调等场景，严格的每用户令牌延迟是保持用户体验的关键，而 DFlash 通过增加推测解码路径的并行度，优化了延迟与吞吐量之间的权衡。这不仅意味着单个 GPU 能承载更多并发用户，显著降低服务成本，也为构建响应更迅速、更复杂的 AI 原生应用铺平了道路。随着该技术被主流框架广泛集成，其带来的效率红利有望快速渗透至整个 AI 推理服务市场。

NVIDIA 发布 DFlash：Blackwell GPU 推理吞吐量最高提升 15 倍

延伸阅读

相关深度报道

相关每日新闻