在 AI 训练硬件竞争日趋白热化的背景下,行业基准测试 MLPerf Training 的最新版本 v6.0 结果出炉,英伟达 Blackwell 平台交出了一份极具统治力的答卷。由 MLCommons 联盟主导的这一测试,是衡量 AI 训练系统性能的行业标尺,而英伟达在本轮中实现了对全部项目的“横扫”——不仅在所有基准上取得了最快的训练时间,在归一化到单加速器性能后同样位居榜首,并且是唯一一个提交了每一项测试的平台。
本轮测试的一个重要变化,是 MLCommons 引入了更贴近当前 AI 模型趋势的新基准。其中包括 DeepSeek-V3,一个拥有 6710 亿参数的混合专家模型,同时也是热门推理模型 DeepSeek-R1 的基础;以及 GPT-OSS-20B,一个参数规模较小但能力不俗的 MoE 模型。英伟达是唯一在这两项新工作负载上都提交了结果的平台。其旗舰系统 GB300 NVL72 通过 NVLink 和 NVLink Switch 将 72 块 Blackwell Ultra GPU 与 36 块 Grace CPU 紧密耦合成一个巨型计算节点,为性能设定了标杆。
训练前沿模型不仅需要强大的单节点算力,更考验将成千上万颗处理器高效协同起来的系统工程能力。在本轮测试的多个项目中,英伟达的云服务商合作伙伴将规模推升至 8192 块 Blackwell GPU 在跨数据中心环境中并行工作。这些提交验证了 Blackwell 平台在真实超大规模数据中心机群中的鲁棒性,并展现出在不同集群环境下强劲的扩展趋势。
在如此量级下榨取每一轮训练迭代的最大效率,意味着必须超越单个 NVLink 域的局限,依赖 Spectrum-X 以太网和 Quantum InfiniBand 等横向扩展网络平台。混合专家模型中的专家并行会产生低熵、突发的流量模式,传统静态等价多路径哈希容易因大流碰撞而导致有效带宽骤降。Spectrum-X 以太网的自适应路由技术通过逐包根据实时链路负载在所有可用路径上分发流量,使有效带宽接近网络理论容量,同时接收端的 ConnectX SuperNIC 负责处理乱序到达。此外,当某个热门专家同时吸引大量发送端流量时,Spectrum-X 拥塞控制利用实时遥测提前感知 incast 现象,在缓冲区溢出前对发送端进行调速,从而平衡尾部延迟,让全对全通信始终隐藏在计算之后,不暴露在主执行路径上。
硬件能力最终需要软件来释放。针对 DeepSeek-V3 这类复杂的 MoE 模型,英伟达部署了多项前沿软件优化。历史上,无令牌丢弃的 MoE 架构因动态路由行为导致持续的 CPU-GPU 同步,难以完全运行在 CUDA 图中。本轮中,英伟达首次为这类 MoE 实现了全迭代 CUDA 图。为此,开发团队将专家模块算子(如量化器、分组 GEMM、令牌分发器)转换为同步无关模式,输入形状直接从 GPU 值派生,消除了主机端协调的必要;同时通过分页暂存技术实现无主机参与的设备内存管理,确保与 CUDA 图完全兼容。通过重写关键执行路径以消除所有 CPU-GPU 同步触点,整个迭代工作负载被完全卸载到 GPU,将 CPU 从关键路径中移除,并消除了因主机执行波动而在 2000 块以上 GPU 集群中可能产生的级联延迟开销。
为实现内存带宽受限层与分组 GEMM 操作的融合以及 CUDA 图所需的同步无关执行,英伟达利用了 CuTe DSL 进行高级内核融合。这使开发者能够在硬件层面直接组合数学运算与内存处理操作,将数据保留在寄存器中,避免昂贵的全局内存往返。此外,动态瓦片调度支持将未融合的读写隐藏在 GEMM 操作之后,实现与通信内核的高效重叠。CuTe DSL 还支持实现可直接从 GPU 内存中消费由另一 GPU 内核预先计算的形状参数的内核,从而即使在运行时才知道动态形状的情况下,也无需 CPU-GPU 同步。这些高级融合与 CUDA 图的启用相结合,为 DeepSeek-V3 带来了超过 8% 的端到端收益,并在 GPT-OSS 上实现了 93% 的端到端加速。
此次 MLPerf 结果不仅是一次性能展示,更揭示了 AI 基础设施竞争的深层逻辑。随着模型架构向更大规模混合专家方向演进,单芯片算力已不再是唯一决定因素,芯片间互连、跨节点网络、以及能够将异构硬件池化为一台巨型虚拟计算机的系统软件栈,正成为新的竞争壁垒。英伟达通过 Blackwell 平台、NVLink 域、Spectrum-X 网络以及 CUDA 软件生态的垂直整合,构建了一个从硅到系统的完整闭环。对于关注 AI 产业链的投资者而言,这一结果强化了英伟达在训练基础设施领域难以短期撼动的地位,同时也意味着大规模 AI 集群的部署将继续向具备端到端能力的供应商集中,影响云服务商、企业客户乃至主权 AI 项目的采购决策。