AI基礎設施正面臨一個被忽視的瓶頸:交換機。Data Center Knowledge發表的一篇評論文章指出,儘管算力芯片性能持續飆升,但網絡能力的提升並未同步跟上,導致全球最先進的GPU大量時間處於閒置狀態。

文章援引一項針對模型浮點運算利用率的研究數據稱,在萬億參數級大模型訓練中,AI實驗室在Nvidia H100上僅實現了35%-40%的模型浮點運算利用率。這意味著,這些價格高昂的芯片有超過一半的時間並非在計算,而是在等待數據通過網絡傳輸到位。網絡結構已經成為制約AI系統實際能力的關鍵約束

這一瓶頸的根源在於,AI訓練集群正從數百張GPU擴展至數千張GPU,網絡挑戰已從單純的連接速率轉向交換結構如何高效協調所有節點間的數據移動。文章作者Mark Rushworth指出,AI訓練工作負載的帶寬需求已從400 Gb/s邁向800 Gb/s1.6 Tb/s的線速也被提上近期路線圖,但原始鏈路速度只是問題的一部分。更艱鉅的工程挑戰在於,如何在超大規模集群中實現低延遲、無擁塞的數據調度。

網絡技術必須在2027年前達到1.6 Tb/s線速目標。若錯過這一窗口期,整個生態系統將被迫尋找繞行方案。這一緊迫性正在重塑數據中心的投資結構。文章預計,網絡設備在數據中心資本支出中的佔比將從目前的5%-10%顯著上升至2030年的15%-20%,網絡已不再是配角,而是決定AI基礎設施成本、能效和競爭力的首要因素。

從產業鏈角度看,這一趨勢將直接利好高端交換機、光模塊和互聯芯片供應商。當昂貴的GPU因網絡延遲而空轉時,單純堆砌算力已無法線性提升訓練效率,優化網絡架構成為釋放算力潛力的前提。對於AI投資者而言,關注點正從“誰擁有最多GPU”轉向“誰的網絡能最有效地讓GPU保持忙碌”,網絡環節的價值重估或將成為AI基礎設施投資的下一個重要敘事。