在最新一轮的 AI 训练行业标准测试中,英伟达Blackwell 平台展现了压倒性的性能优势。由行业联盟 MLCommons 管理的 MLPerf Training v6.0 基准测试结果公布,英伟达不仅在所有项目中赢得了最快训练时间,还在衡量单个加速器效率的每加速器性能指标上全面领先,并且是唯一一家提交了全部测试项目的平台。

本轮测试紧跟前沿模型趋势,引入了两项新的预训练基准:一个是拥有 6710 亿参数的混合专家模型 DeepSeek-V3,该模型也是热门推理模型 DeepSeek-R1 的基础;另一个是参数规模较小但能力不俗的混合专家模型 GPT-OSS-20B。英伟达是唯一在这两项新任务上都提交了成绩的平台。

在硬件层面,GB300 NVL72 系统成为此次创纪录表现的核心。该系统通过 NVLinkNVLink Switch 技术,将 72 块 Blackwell Ultra GPU36 颗 Grace CPU 紧密耦合成一个巨型加速单元。为了训练像 DeepSeek-V3 这样的巨型模型,英伟达及其云服务伙伴将集群规模扩展到了惊人的 8192 块 GPU,并在多个生产级云数据中心环境中验证了这种超大规模扩展的稳健性。

支撑这种规模扩展的关键在于高效的网络架构。混合专家模型在训练时会产生大量突发性的低熵流量,传统网络路由容易造成链路冲突和带宽浪费。为此,英伟达部署了 Spectrum-X 以太网平台,其自适应路由技术能根据实时链路负载将数据包动态分配到所有可用路径,并结合拥塞控制机制在 incast 场景下提前调整发送速率,从而将通信延迟隐藏在计算过程之后,确保了大规模集群的训练效率。

最终,这套软硬件协同设计创下了一系列令人瞩目的训练速度记录:在 8192 块 GPU 集群上,训练一次 DeepSeek-V3 模型仅需 2.02 分钟;在 512 块 GPU 集群上,训练 GPT-OSS 20B 模型耗时 7.43 分钟;而训练 Llama 3.1 405B 这样的大模型,在 8192 块 GPU 集群上也只用了 7.07 分钟

软件栈的深度优化是释放硬件潜能的另一大支柱。针对 DeepSeek-V3 这类复杂的混合专家模型,英伟达首次实现了全迭代的 CUDA,解决了此前因动态路由导致的频繁 CPU-GPU 同步问题,使得整个训练迭代能完全在 GPU 上高效执行。此外,通过算子融合、针对混合专家模型路由的优化以及几乎完全隐藏通信开销的并行策略,在短短三个月内,DeepSeek-V3 的训练吞吐量就提升了 1.3 倍,而这期间硬件并未发生任何改变。

从产业视角看,此次 MLPerf 结果的意义是多重的。首先,它直接证明了 Blackwell Ultra 架构及其配套的 GB300 系统在面对新一代万亿参数级混合专家模型时,具备极强的大规模线性扩展能力,这对于正在竞相构建超大规模训练集群的云服务商和科技巨头而言,是一个关键的采购参考信号。其次,唯一提交全部测试这一事实,凸显了英伟达平台在模型覆盖广度上的绝对优势,其竞争对手在部分前沿模型测试上的缺席,可能反映出软件生态适配或硬件架构上的挑战。最后,通过展示在固定硬件上仅凭软件优化就能实现显著性能提升,英伟达强化了其全栈平台的价值叙事,即客户投资的不仅是芯片,更是一个能随时间持续增值的软件生态。