随着 AI 系统从单轮对话转向协调多智能体工作流,低延迟推理的重要性日益凸显。传统的自回归大语言模型(LLM)逐个生成令牌,在延迟敏感的服务场景中容易限制 GPU 利用率并制约吞吐量。NVIDIA 最新发布的开源框架 DFlash,通过一种创新的推测解码方法,正在改变这一局面。
DFlash 的核心突破在于其块扩散草稿模型。与传统的推测解码依赖轻量级模型顺序生成候选令牌不同,DFlash 的草稿器能在单次前向传播中并行生成整块候选令牌,随后由目标模型进行并行验证。这种将顺序草稿转化为块并行 GPU 工作的方式,在保证输出质量的前提下,大幅释放了硬件算力。
在 NVIDIA Blackwell 架构上,这一优势被进一步放大。根据 NVIDIA 开发者博客公布的基准测试,在八路 DGX B300 系统上运行 TensorRT-LLM 时,DFlash 为 gpt-oss-120b 模型带来了显著的性能飞跃。在每用户每秒 500-600 令牌的高交互性区间,DFlash 的吞吐量相比自回归解码提升超过 15 倍,比当前先进的 EAGLE-3 推测解码方案高出 1.5 倍。在批处理大小为 1 的最低并发点,DFlash 在 Blackwell 上的交互性也提升了一倍以上。
这种性能增益源于 DFlash 与 Blackwell 架构的深度契合。每个 Blackwell Ultra GPU 结合了两个由每秒 10 TB 高带宽芯片间互连连接的掩模版尺寸芯片,形成一个拥有 160 个流式多处理器和 640 个第五代张量核心的统一计算域。在解码受限的区域,LLM 推理往往受限于内存移动和令牌生成的顺序性,而非原始算力。DFlash 将部分工作转化为并行块草稿和验证,使系统能更充分地利用 Blackwell 高达 15 PFLOPS 的密集 NVFP4 算力,从而在相同交互性目标下服务更多并发用户。
性能提升并非仅限于超大模型。在 Llama 3.1 8B 模型上,DFlash 相比 EAGLE-3 的性能提升近一倍。在涵盖编码、RAG、推理、写作、多语言和摘要等不同任务的 Speed-Bench 数据集上,DFlash 对 gpt-oss-120b 的平均交互性加速比为 2.3 倍,对 Llama 3.1 8B 为 2.8 倍。此外,在 vLLM 和 SGLang 框架上的测试也显示,DFlash 为 Gemma 4 31B 带来最高 5.8 倍的加速,为 Qwen3 8-B 带来最高 5.1 倍的加速。
为了加速从研究到开发者的落地进程,研究团队已在 Hugging Face 上发布了 20 个 DFlash 检查点,并提供适用于 NVIDIA Blackwell 和 Hopper GPU 的配置方案。更重要的是,DFlash 已集成到 SGLang、vLLM 和 TensorRT-LLM 等主流推理框架中。这意味着开发者无需进行代码重构,即可直接采用 DFlash 来加速现有模型服务。
从产业视角看,DFlash 的推出直接回应了 AI 应用向更复杂、更实时方向演进的算力需求。对于代码生成、交互式推理和多智能体协调等场景,严格的每用户令牌延迟是保持用户体验的关键,而 DFlash 通过增加推测解码路径的并行度,优化了延迟与吞吐量之间的权衡。这不仅意味着单个 GPU 能承载更多并发用户,显著降低服务成本,也为构建响应更迅速、更复杂的 AI 原生应用铺平了道路。随着该技术被主流框架广泛集成,其带来的效率红利有望快速渗透至整个 AI 推理服务市场。