MLCommons在舊金山正式公佈了MLPerf Training v6.0的基準測試結果,這一輪評測通過新增基準和大幅擴展的提交範圍,清晰勾勒出AI訓練生態正在經歷的兩大轉變:模型架構向稀疏計算集中,以及訓練基礎設施從本地向雲端加速遷移。
本輪最引人注目的變化是引入了兩項專門針對混合專家(MoE)架構的基準測試。DeepSeek V3作為一個大規模預訓練模型,擁有6710億總參數,每個token激活370億參數,成為MLPerf訓練套件中規模最大的基準,旨在評估生產級開源權重MoE模型的訓練效率。另一項GPT-OSS 20B則定位為入門級測試,總參數210億,每token激活36億參數,可在單節點8 GPU的配置上運行,讓資源有限的組織也能評估MoE架構複雜的路由邏輯和稀疏計算模式。MLPerf訓練工作組聯合主席Shriya Rishab指出,過去兩年所有主要的新生成式AI模型都採用了稀疏計算架構,這兩項基準的快速普及表明,業界對MoE性能基準測試的需求十分迫切。
提交系統的多樣性同樣創下紀錄。本輪共有95個獨特系統參與,使用了13種不同的硬件加速器、19種主機處理器以及多種軟件框架,其中60%為多節點系統。尤其值得關注的是,雲系統的提交數量相比六個月前的v5.1版本增長了一倍以上,反映出AI訓練託管在雲端的新興市場正在快速成型。工作組聯合主席Pavan Yalamanchili表示,當前企業獲取AI訓練算力的途徑比以往任何時候都多,多家公司提供雲端訓練系統,與持續高速建設的本地系統形成互補。
在技術實現層面,提交結果還顯示出FP4精度方案的多樣性,不同實現方式在靈活性和特定訓練場景下的性能表現存在差異。MLPerf通過要求所有提交必須達到準確度閾值,幫助利益相關方理解這些硬件和實現設計選擇如何影響最終性能。
本輪共有24家機構提交了結果,包括AMD、Azure、CoreWeave、谷歌、英偉達、甲骨文、戴爾、HPE、富士通等,涵蓋芯片供應商、雲服務商、服務器製造商和新興算力提供商。這種廣泛的參與度表明,生成式AI驅動的算力需求正在拉動整個產業鏈的競爭與創新,而MLPerf的基準數據正成為觀察這場競賽的關鍵窗口。