在 AI 訓練硬件競爭日趨白熱化的背景下,行業基準測試 MLPerf Training 的最新版本 v6.0 結果出爐,英偉達 Blackwell 平臺交出了一份極具統治力的答卷。由 MLCommons 聯盟主導的這一測試,是衡量 AI 訓練系統性能的行業標尺,而英偉達在本輪中實現了對全部項目的“橫掃”——不僅在所有基準上取得了最快的訓練時間,在歸一化到單加速器性能後同樣位居榜首,並且是唯一一個提交了每一項測試的平臺。

本輪測試的一個重要變化,是 MLCommons 引入了更貼近當前 AI 模型趨勢的新基準。其中包括 DeepSeek-V3,一個擁有 6710 億參數的混合專家模型,同時也是熱門推理模型 DeepSeek-R1 的基礎;以及 GPT-OSS-20B,一個參數規模較小但能力不俗的 MoE 模型。英偉達是唯一在這兩項新工作負載上都提交了結果的平臺。其旗艦系統 GB300 NVL72 通過 NVLink 和 NVLink Switch 將 72 塊 Blackwell Ultra GPU 與 36 塊 Grace CPU 緊密耦合成一個巨型計算節點,為性能設定了標杆。

訓練前沿模型不僅需要強大的單節點算力,更考驗將成千上萬顆處理器高效協同起來的系統工程能力。在本輪測試的多個項目中,英偉達的雲服務商合作伙伴將規模推升至 8192 塊 Blackwell GPU 在跨數據中心環境中並行工作。這些提交驗證了 Blackwell 平臺在真實超大規模數據中心機群中的魯棒性,並展現出在不同集群環境下強勁的擴展趨勢。

在如此量級下榨取每一輪訓練迭代的最大效率,意味著必須超越單個 NVLink 域的侷限,依賴 Spectrum-X 以太網和 Quantum InfiniBand 等橫向擴展網絡平臺。混合專家模型中的專家並行會產生低熵、突發的流量模式,傳統靜態等價多路徑哈希容易因大流碰撞而導致有效帶寬驟降。Spectrum-X 以太網的自適應路由技術通過逐包根據實時鏈路負載在所有可用路徑上分發流量,使有效帶寬接近網絡理論容量,同時接收端的 ConnectX SuperNIC 負責處理亂序到達。此外,當某個熱門專家同時吸引大量發送端流量時,Spectrum-X 擁塞控制利用實時遙測提前感知 incast 現象,在緩衝區溢出前對發送端進行調速,從而平衡尾部延遲,讓全對全通信始終隱藏在計算之後,不暴露在主執行路徑上。

硬件能力最終需要軟件來釋放。針對 DeepSeek-V3 這類複雜的 MoE 模型,英偉達部署了多項前沿軟件優化。歷史上,無令牌丟棄的 MoE 架構因動態路由行為導致持續的 CPU-GPU 同步,難以完全運行在 CUDA 圖中。本輪中,英偉達首次為這類 MoE 實現了全迭代 CUDA 圖。為此,開發團隊將專家模塊算子(如量化器、分組 GEMM、令牌分發器)轉換為同步無關模式,輸入形狀直接從 GPU 值派生,消除了主機端協調的必要;同時通過分頁暫存技術實現無主機參與的設備內存管理,確保與 CUDA 圖完全兼容。通過重寫關鍵執行路徑以消除所有 CPU-GPU 同步觸點,整個迭代工作負載被完全卸載到 GPU,將 CPU 從關鍵路徑中移除,並消除了因主機執行波動而在 2000 塊以上 GPU 集群中可能產生的級聯延遲開銷。

為實現內存帶寬受限層與分組 GEMM 操作的融合以及 CUDA 圖所需的同步無關執行,英偉達利用了 CuTe DSL 進行高級內核融合。這使開發者能夠在硬件層面直接組合數學運算與內存處理操作,將數據保留在寄存器中,避免昂貴的全局內存往返。此外,動態瓦片調度支持將未融合的讀寫隱藏在 GEMM 操作之後,實現與通信內核的高效重疊。CuTe DSL 還支持實現可直接從 GPU 內存中消費由另一 GPU 內核預先計算的形狀參數的內核,從而即使在運行時才知道動態形狀的情況下,也無需 CPU-GPU 同步。這些高級融合與 CUDA 圖的啟用相結合,為 DeepSeek-V3 帶來了超過 8% 的端到端收益,並在 GPT-OSS 上實現了 93% 的端到端加速。

此次 MLPerf 結果不僅是一次性能展示,更揭示了 AI 基礎設施競爭的深層邏輯。隨著模型架構向更大規模混合專家方向演進,單芯片算力已不再是唯一決定因素,芯片間互連、跨節點網絡、以及能夠將異構硬件池化為一臺巨型虛擬計算機的系統軟件棧,正成為新的競爭壁壘。英偉達通過 Blackwell 平臺、NVLink 域、Spectrum-X 網絡以及 CUDA 軟件生態的垂直整合,構建了一個從硅到系統的完整閉環。對於關注 AI 產業鏈的投資者而言,這一結果強化了英偉達在訓練基礎設施領域難以短期撼動的地位,同時也意味著大規模 AI 集群的部署將繼續向具備端到端能力的供應商集中,影響雲服務商、企業客戶乃至主權 AI 項目的採購決策。