在最新一輪的 AI 訓練行業標準測試中,英偉達的 Blackwell 平臺展現了壓倒性的性能優勢。由行業聯盟 MLCommons 管理的 MLPerf Training v6.0 基準測試結果公佈,英偉達不僅在所有項目中贏得了最快訓練時間,還在衡量單個加速器效率的每加速器性能指標上全面領先,並且是唯一一家提交了全部測試項目的平臺。
本輪測試緊跟前沿模型趨勢,引入了兩項新的預訓練基準:一個是擁有 6710 億參數的混合專家模型 DeepSeek-V3,該模型也是熱門推理模型 DeepSeek-R1 的基礎;另一個是參數規模較小但能力不俗的混合專家模型 GPT-OSS-20B。英偉達是唯一在這兩項新任務上都提交了成績的平臺。
在硬件層面,GB300 NVL72 系統成為此次創紀錄表現的核心。該系統通過 NVLink 和 NVLink Switch 技術,將 72 塊 Blackwell Ultra GPU 與 36 顆 Grace CPU 緊密耦合成一個巨型加速單元。為了訓練像 DeepSeek-V3 這樣的巨型模型,英偉達及其雲服務夥伴將集群規模擴展到了驚人的 8192 塊 GPU,並在多個生產級雲數據中心環境中驗證了這種超大規模擴展的穩健性。
支撐這種規模擴展的關鍵在於高效的網絡架構。混合專家模型在訓練時會產生大量突發性的低熵流量,傳統網絡路由容易造成鏈路衝突和帶寬浪費。為此,英偉達部署了 Spectrum-X 以太網平臺,其自適應路由技術能根據實時鏈路負載將數據包動態分配到所有可用路徑,並結合擁塞控制機制在 incast 場景下提前調整發送速率,從而將通信延遲隱藏在計算過程之後,確保了大規模集群的訓練效率。
最終,這套軟硬件協同設計創下了一系列令人矚目的訓練速度記錄:在 8192 塊 GPU 集群上,訓練一次 DeepSeek-V3 模型僅需 2.02 分鐘;在 512 塊 GPU 集群上,訓練 GPT-OSS 20B 模型耗時 7.43 分鐘;而訓練 Llama 3.1 405B 這樣的大模型,在 8192 塊 GPU 集群上也只用了 7.07 分鐘。
軟件棧的深度優化是釋放硬件潛能的另一大支柱。針對 DeepSeek-V3 這類複雜的混合專家模型,英偉達首次實現了全迭代的 CUDA 圖,解決了此前因動態路由導致的頻繁 CPU-GPU 同步問題,使得整個訓練迭代能完全在 GPU 上高效執行。此外,通過算子融合、針對混合專家模型路由的優化以及幾乎完全隱藏通信開銷的並行策略,在短短三個月內,DeepSeek-V3 的訓練吞吐量就提升了 1.3 倍,而這期間硬件並未發生任何改變。
從產業視角看,此次 MLPerf 結果的意義是多重的。首先,它直接證明了 Blackwell Ultra 架構及其配套的 GB300 系統在面對新一代萬億參數級混合專家模型時,具備極強的大規模線性擴展能力,這對於正在競相構建超大規模訓練集群的雲服務商和科技巨頭而言,是一個關鍵的採購參考信號。其次,唯一提交全部測試這一事實,凸顯了英偉達平臺在模型覆蓋廣度上的絕對優勢,其競爭對手在部分前沿模型測試上的缺席,可能反映出軟件生態適配或硬件架構上的挑戰。最後,通過展示在固定硬件上僅憑軟件優化就能實現顯著性能提升,英偉達強化了其全棧平臺的價值敘事,即客戶投資的不僅是芯片,更是一個能隨時間持續增值的軟件生態。