輝達 Blackwell 橫掃 MLPerf 訓練 6.0，規模與效能均創紀錄

輝達Blackwell在MLPerf v6.0訓練基準中獲最快速度和最高每加速器效能

在 AI 訓練硬體競爭日趨白熱化的背景下，行業基準測試 MLPerf Training 的最新版本 v6.0 結果出爐，輝達 Blackwell 平台交出了一份極具統治力的答卷。由 MLCommons 聯盟主導的這一測試，是衡量 AI 訓練系統性能的行業標尺，而輝達在本輪中實現了對全部專案的“橫掃”——不僅在所有基準上取得了最快的訓練時間，在歸一化到單加速器效能後同樣位居榜首，並且是唯一一個提交了每一項測試的平台。

本輪測試的一個重要變化，是 MLCommons 引入了更貼近當前 AI 模型趨勢的新基準。其中包括 DeepSeek-V3，一個擁有 6710 億引數的混合專家模型，同時也是熱門推理模型 DeepSeek-R1 的基礎；以及 GPT-OSS-20B，一個引數規模較小但能力不俗的 MoE 模型。輝達是唯一在這兩項新工作負載上都提交了結果的平台。其旗艦系統 GB300 NVL72 通過 NVLink 和 NVLink Switch 將 72 塊 Blackwell Ultra GPU 與 36 塊 Grace CPU 緊密耦合成一個巨型計算節點，為效能設定了標杆。

訓練前沿模型不僅需要強大的單節點算力，更考驗將成千上萬顆處理器高效協同起來的系統工程能力。在本輪測試的多個專案中，輝達的雲服務商合作伙伴將規模推升至 8192 塊 Blackwell GPU 在跨資料中心環境中並行工作。這些提交驗證了 Blackwell 平台在真實超大規模資料中心機群中的魯棒性，並展現出在不同叢集環境下強勁的擴充套件趨勢。

在如此量級下榨取每一輪訓練迭代的最大效率，意味著必須超越單個 NVLink 域的侷限，依賴 Spectrum-X 乙太網路和 Quantum InfiniBand 等橫向擴充套件網路平台。混合專家模型中的專家並行會產生低熵、突發的流量模式，傳統靜態等價多路徑雜湊容易因大流碰撞而導致有效頻寬驟降。Spectrum-X 乙太網路的自適應路由技術通過逐包根據即時鏈路負載在所有可用路徑上分發流量，使有效頻寬接近網路理論容量，同時接收端的 ConnectX SuperNIC 負責處理亂序到達。此外，當某個熱門專家同時吸引大量傳送端流量時，Spectrum-X 擁塞控制利用即時遙測提前感知 incast 現象，在緩衝區溢位前對傳送端進行調速，從而平衡尾部延遲，讓全對全通訊始終隱藏在計算之後，不暴露在主執行路徑上。

硬體能力最終需要軟體來釋放。針對 DeepSeek-V3 這類複雜的 MoE 模型，輝達部署了多項前沿軟體最佳化。歷史上，無令牌丟棄的 MoE 架構因動態路由行為導致持續的 CPU-GPU 同步，難以完全執行在 CUDA 圖中。本輪中，輝達首次為這類 MoE 實現了全迭代 CUDA 圖。為此，開發團隊將專家模組運算元（如量化器、分組 GEMM、令牌分發器）轉換為同步無關模式，輸入形狀直接從 GPU 值派生，消除了主機端協調的必要；同時通過分頁暫存技術實現無主機參與的裝置記憶體管理，確保與 CUDA 圖完全相容。通過重寫關鍵執行路徑以消除所有 CPU-GPU 同步觸點，整個迭代工作負載被完全解除安裝到 GPU，將 CPU 從關鍵路徑中移除，並消除了因主機執行波動而在 2000 塊以上 GPU 叢集中可能產生的級聯延遲開銷。

為實現記憶體頻寬受限層與分組 GEMM 操作的融合以及 CUDA 圖所需的同步無關執行，輝達利用了 CuTe DSL 進行高階核心融合。這使開發者能夠在硬體層面直接組合數學運算與記憶體處理操作，將資料保留在暫存器中，避免昂貴的全域性記憶體往返。此外，動態瓦片排程支援將未融合的讀寫隱藏在 GEMM 操作之後，實現與通訊核心的高效重疊。CuTe DSL 還支援實現可直接從 GPU 記憶體中消費由另一 GPU 核心預先計算的形狀引數的核心，從而即使在執行時才知道動態形狀的情況下，也無需 CPU-GPU 同步。這些高階融合與 CUDA 圖的啟用相結合，為 DeepSeek-V3 帶來了超過 8% 的端到端收益，並在 GPT-OSS 上實現了 93% 的端到端加速。

此次 MLPerf 結果不僅是一次效能展示，更揭示了 AI 基礎設施競爭的深層邏輯。隨著模型架構向更大規模混合專家方向演進，單晶片算力已不再是唯一決定因素，晶片間互連、跨節點網路、以及能夠將異構硬體池化為一台巨型虛擬計算機的系統軟體棧，正成為新的競爭壁壘。輝達通過 Blackwell 平台、NVLink 域、Spectrum-X 網路以及 CUDA 軟體生態的垂直整合，構建了一個從矽到系統的完整閉環。對於關注 AI 產業鏈的投資者而言，這一結果強化了輝達在訓練基礎設施領域難以短期撼動的地位，同時也意味著大規模 AI 叢集的部署將繼續向具備端到端能力的供應商集中，影響雲服務商、企業客戶乃至主權 AI 專案的採購決策。

輝達 Blackwell 橫掃 MLPerf 訓練 6.0，規模與效能均創紀錄

延伸閱讀

相關深度報道

相關每日新聞