MLCommons釋出MLPerf訓練v6.0：新增MoE基準，提交多樣性創新高

MLCommons公佈MLPerf訓練v6.0結果，新增兩項基準測試

來源:HPCwire · 2026-06-16 14:55 ET · #模型

字號

MLCommons在舊金山正式公佈了MLPerf Training v6.0的基準測試結果，這一輪評測通過新增基準和大幅擴充套件的提交範圍，清晰勾勒出AI訓練生態正在經歷的兩大轉變：模型架構向稀疏計算集中，以及訓練基礎設施從本地向雲端加速遷移。

本輪最引人注目的變化是引入了兩項專門針對混合專家（MoE）架構的基準測試。DeepSeek V3作為一個大規模預訓練模型，擁有6710億總引數，每個token啟用370億引數，成為MLPerf訓練套件中規模最大的基準，旨在評估生產級開源權重MoE模型的訓練效率。另一項GPT-OSS 20B則定位為入門級測試，總引數210億，每token啟用36億引數，可在單節點8 GPU的配置上執行，讓資源有限的組織也能評估MoE架構複雜的路由邏輯和稀疏計算模式。MLPerf訓練工作組聯合主席Shriya Rishab指出，過去兩年所有主要的新生成式AI模型都採用了稀疏計算架構，這兩項基準的快速普及表明，業界對MoE效能基準測試的需求十分迫切。

提交系統的多樣性同樣創下紀錄。本輪共有95個獨特系統參與，使用了13種不同的硬體加速器、19種主機處理器以及多種軟體框架，其中60%為多節點系統。尤其值得關注的是，雲系統的提交數量相比六個月前的v5.1版本增長了一倍以上，反映出AI訓練託管在雲端的新興市場正在快速成型。工作組聯合主席Pavan Yalamanchili表示，當前企業獲取AI訓練算力的途徑比以往任何時候都多，多家公司提供雲端訓練系統，與持續高速建設的本地系統形成互補。

在技術實現層面，提交結果還顯示出FP4精度方案的多樣性，不同實現方式在靈活性和特定訓練場景下的效能表現存在差異。MLPerf通過要求所有提交必須達到準確度閾值，幫助利益相關方理解這些硬體和實現設計選擇如何影響最終效能。

本輪共有24家機構提交了結果，包括AMD、Azure、CoreWeave、谷歌、輝達、甲骨文、戴爾、HPE、富士通等，涵蓋晶片供應商、雲服務商、伺服器製造商和新興算力提供商。這種廣泛的參與度表明，生成式AI驅動的算力需求正在拉動整個產業鏈的競爭與創新，而MLPerf的基準資料正成為觀察這場競賽的關鍵視窗。

MLCommons釋出MLPerf訓練v6.0：新增MoE基準，提交多樣性創新高

延伸閱讀

相關深度報道

相關每日新聞