AI 模型的能力邊界,往往在訓練階段就已劃定。而訓練基礎設施的性能、規模與可靠性,直接決定了模型迭代的速度、可觸及的參數量級,以及最終能否穩定產出。在 2026 年 6 月 17 日公佈的最新一輪 MLPerf Training 6.0 基準測試中,NVIDIA Blackwell 平臺交出了一份全面領先的答卷,進一步拉高了業界對下一代訓練基礎設施的預期。
MLPerf Training 是由行業多方參與的標準化 AI 訓練性能評測體系,其結果經過同行評審,是衡量不同硬件與軟件方案在同等任務下表現的重要標尺。本輪 6.0 版本新增了兩項混合專家模型(MoE)預訓練任務——DeepSeek-V3 671B 與 GPT-OSS-20B,反映出 MoE 架構正從探索走向主流。NVIDIA 是唯一一個在所有七項基準測試中均提交結果的平臺方,並且每一項都拿下了最快訓練時間。
性能層面的亮點來自新一代 GB300 NVL72 機架級系統。與上一代 GB200 NVL72 相比,GB300 NVL72 在同等規模下實現了最高 1.6 倍的訓練加速。這一提升得益於 Blackwell Ultra 的多項關鍵改進:更高的 NVFP4 計算密度、更大的顯存容量,以及更高的功耗上限,使 GPU 能夠在更長時間內維持峰值性能。NVIDIA 還展示了基於 NVFP4 低精度訓練的方法,在滿足嚴格精度要求的前提下,進一步壓縮了大、小規模預訓練及微調任務的時間。此前,NVIDIA 已利用 NVFP4 成功預訓練了 5500 億參數的 Nemotron 3 Ultra 模型,表明低精度訓練正從實驗走向生產級應用。
在規模維度,NVIDIA 將分佈式訓練推向了新的量級。針對本輪最大規模的 MoE 模型 DeepSeek-V3 671B,NVIDIA 使用 GB200 NVL72 系統擴展至 8192 顆 GPU,創下 MLPerf Training 中 Blackwell 平臺的最大規模提交記錄。在 Llama 3.1 405B 這一最大規模稠密大語言模型上,NVIDIA 也以 5120 顆 GPU 的 GB200 NVL72 集群完成了提交。這些成績背後,是 NVIDIA 提供的兩條互補擴展網絡路徑——Quantum InfiniBand 與 Spectrum-X 以太網,讓數據中心可以根據自身基礎設施條件靈活構建大規模集群。
合作伙伴的深度參與是本次結果的另一看點。微軟 Azure 使用 GB200 NVL72 系統將 Llama 3.1 405B 訓練擴展至 8192 顆 GPU,以 7.07 分鐘達到參考質量目標,拿下該基準的最快時間。CoreWeave 則在 DeepSeek-V3 671B 上,使用 GB300 NVL72 系統配合 Spectrum-X 以太網,在 8192 顆 GPU 規模下以 2.02 分鐘完成訓練,同樣位列第一。此外,包括 Google Cloud、戴爾、HPE、富士通、超微、思科、華碩在內的 19 家機構也提交了基於 Blackwell 的測試結果,顯示出該平臺已在廣泛的生態中進入實際部署。
對於動輒持續數週甚至數月、跨越數十萬顆 GPU 的生產級訓練任務而言,單純的速度指標並不足以保證項目成功。NVIDIA 在本次測試中同時強調了平臺在可靠性方面的工程投入。在預防層面,每顆 GPU 在出廠前需經過 30 餘道製造測試環節,部署後由板載的可靠性引擎持續監控芯片狀態,並具備自愈能力,可在檢測到故障時自動繞行,避免中斷工作負載。在網絡層面,Spectrum-X 以太網能在毫秒級內重新路由故障鏈路,維持集群網絡健康。當故障確實發生時,NVIDIA 的 NVRx 彈性擴展機制可自動檢測並管理性能下降的節點,並從最近的檢查點快速恢復訓練,而非重啟整個任務,從而將中斷損失降至最低。
從產業視角看,Blackwell 平臺在 MLPerf Training 6.0 中的全面領先,不僅是一次基準測試的勝利,更向市場傳遞了幾層信號。其一,MoE 架構的規模化訓練效率正在被工程化解決,NVLink 高帶寬互聯在應對 MoE 的 all-to-all 通信瓶頸上展現出決定性優勢。其二,低精度訓練如 NVFP4 正從技術演示走向支撐超大模型預訓練的關鍵手段,這對降低訓練成本、縮短上市時間具有直接的經濟意義。其三,大規模集群的可靠性不再是軟性承諾,而是通過芯片級、網絡級與系統級的多層冗餘與自動恢復機制,成為可量化的工程指標。對於關注 AI 基礎設施投資的決策者而言,這些進展意味著下一代前沿模型的訓練風險正在被系統性壓縮,而算力效率的提升則可能重塑單位智能產出的成本曲線。