AI 模型的能力边界,往往在训练阶段就已划定。而训练基础设施的性能、规模与可靠性,直接决定了模型迭代的速度、可触及的参数量级,以及最终能否稳定产出。在 2026 年 6 月 17 日公布的最新一轮 MLPerf Training 6.0 基准测试中,NVIDIA Blackwell 平台交出了一份全面领先的答卷,进一步拉高了业界对下一代训练基础设施的预期。
MLPerf Training 是由行业多方参与的标准化 AI 训练性能评测体系,其结果经过同行评审,是衡量不同硬件与软件方案在同等任务下表现的重要标尺。本轮 6.0 版本新增了两项混合专家模型(MoE)预训练任务——DeepSeek-V3 671B 与 GPT-OSS-20B,反映出 MoE 架构正从探索走向主流。NVIDIA 是唯一一个在所有七项基准测试中均提交结果的平台方,并且每一项都拿下了最快训练时间。
性能层面的亮点来自新一代 GB300 NVL72 机架级系统。与上一代 GB200 NVL72 相比,GB300 NVL72 在同等规模下实现了最高 1.6 倍的训练加速。这一提升得益于 Blackwell Ultra 的多项关键改进:更高的 NVFP4 计算密度、更大的显存容量,以及更高的功耗上限,使 GPU 能够在更长时间内维持峰值性能。NVIDIA 还展示了基于 NVFP4 低精度训练的方法,在满足严格精度要求的前提下,进一步压缩了大、小规模预训练及微调任务的时间。此前,NVIDIA 已利用 NVFP4 成功预训练了 5500 亿参数的 Nemotron 3 Ultra 模型,表明低精度训练正从实验走向生产级应用。
在规模维度,NVIDIA 将分布式训练推向了新的量级。针对本轮最大规模的 MoE 模型 DeepSeek-V3 671B,NVIDIA 使用 GB200 NVL72 系统扩展至 8192 颗 GPU,创下 MLPerf Training 中 Blackwell 平台的最大规模提交记录。在 Llama 3.1 405B 这一最大规模稠密大语言模型上,NVIDIA 也以 5120 颗 GPU 的 GB200 NVL72 集群完成了提交。这些成绩背后,是 NVIDIA 提供的两条互补扩展网络路径——Quantum InfiniBand 与 Spectrum-X 以太网,让数据中心可以根据自身基础设施条件灵活构建大规模集群。
合作伙伴的深度参与是本次结果的另一看点。微软 Azure 使用 GB200 NVL72 系统将 Llama 3.1 405B 训练扩展至 8192 颗 GPU,以 7.07 分钟达到参考质量目标,拿下该基准的最快时间。CoreWeave 则在 DeepSeek-V3 671B 上,使用 GB300 NVL72 系统配合 Spectrum-X 以太网,在 8192 颗 GPU 规模下以 2.02 分钟完成训练,同样位列第一。此外,包括 Google Cloud、戴尔、HPE、富士通、超微、思科、华硕在内的 19 家机构也提交了基于 Blackwell 的测试结果,显示出该平台已在广泛的生态中进入实际部署。
对于动辄持续数周甚至数月、跨越数十万颗 GPU 的生产级训练任务而言,单纯的速度指标并不足以保证项目成功。NVIDIA 在本次测试中同时强调了平台在可靠性方面的工程投入。在预防层面,每颗 GPU 在出厂前需经过 30 余道制造测试环节,部署后由板载的可靠性引擎持续监控芯片状态,并具备自愈能力,可在检测到故障时自动绕行,避免中断工作负载。在网络层面,Spectrum-X 以太网能在毫秒级内重新路由故障链路,维持集群网络健康。当故障确实发生时,NVIDIA 的 NVRx 弹性扩展机制可自动检测并管理性能下降的节点,并从最近的检查点快速恢复训练,而非重启整个任务,从而将中断损失降至最低。
从产业视角看,Blackwell 平台在 MLPerf Training 6.0 中的全面领先,不仅是一次基准测试的胜利,更向市场传递了几层信号。其一,MoE 架构的规模化训练效率正在被工程化解决,NVLink 高带宽互联在应对 MoE 的 all-to-all 通信瓶颈上展现出决定性优势。其二,低精度训练如 NVFP4 正从技术演示走向支撑超大模型预训练的关键手段,这对降低训练成本、缩短上市时间具有直接的经济意义。其三,大规模集群的可靠性不再是软性承诺,而是通过芯片级、网络级与系统级的多层冗余与自动恢复机制,成为可量化的工程指标。对于关注 AI 基础设施投资的决策者而言,这些进展意味着下一代前沿模型的训练风险正在被系统性压缩,而算力效率的提升则可能重塑单位智能产出的成本曲线。