MLCommons在旧金山正式公布了MLPerf Training v6.0的基准测试结果,这一轮评测通过新增基准和大幅扩展的提交范围,清晰勾勒出AI训练生态正在经历的两大转变:模型架构向稀疏计算集中,以及训练基础设施从本地向云端加速迁移。
本轮最引人注目的变化是引入了两项专门针对混合专家(MoE)架构的基准测试。DeepSeek V3作为一个大规模预训练模型,拥有6710亿总参数,每个token激活370亿参数,成为MLPerf训练套件中规模最大的基准,旨在评估生产级开源权重MoE模型的训练效率。另一项GPT-OSS 20B则定位为入门级测试,总参数210亿,每token激活36亿参数,可在单节点8 GPU的配置上运行,让资源有限的组织也能评估MoE架构复杂的路由逻辑和稀疏计算模式。MLPerf训练工作组联合主席Shriya Rishab指出,过去两年所有主要的新生成式AI模型都采用了稀疏计算架构,这两项基准的快速普及表明,业界对MoE性能基准测试的需求十分迫切。
提交系统的多样性同样创下纪录。本轮共有95个独特系统参与,使用了13种不同的硬件加速器、19种主机处理器以及多种软件框架,其中60%为多节点系统。尤其值得关注的是,云系统的提交数量相比六个月前的v5.1版本增长了一倍以上,反映出AI训练托管在云端的新兴市场正在快速成型。工作组联合主席Pavan Yalamanchili表示,当前企业获取AI训练算力的途径比以往任何时候都多,多家公司提供云端训练系统,与持续高速建设的本地系统形成互补。
在技术实现层面,提交结果还显示出FP4精度方案的多样性,不同实现方式在灵活性和特定训练场景下的性能表现存在差异。MLPerf通过要求所有提交必须达到准确度阈值,帮助利益相关方理解这些硬件和实现设计选择如何影响最终性能。
本轮共有24家机构提交了结果,包括AMD、Azure、CoreWeave、谷歌、英伟达、甲骨文、戴尔、HPE、富士通等,涵盖芯片供应商、云服务商、服务器制造商和新兴算力提供商。这种广泛的参与度表明,生成式AI驱动的算力需求正在拉动整个产业链的竞争与创新,而MLPerf的基准数据正成为观察这场竞赛的关键窗口。