國產GPU資本熱潮下的算力暗線：訓練側差距仍顯著

國產AI芯片集中於推理側，豆包計劃採購5萬塊天數智芯芯片用於推理。

自去年底以來，摩爾線程、沐曦股份、壁仞科技、天數智芯等一批國產GPU廠商在二級市場掀起了一輪資本熱浪，吸引了大量投資者的目光。然而，在這波財富盛宴的喧囂之下，一條關於算力結構的暗線正變得愈發清晰，其引發的產業難題也日益迫切。

過去幾年，國產AI芯片的突破主要集中在相對安全且處於算力金字塔邊緣的推理側。一個典型的案例是，近期中國最大的AI應用終端豆包計劃大規模採購天數智芯的5萬塊芯片，專門用於處理高頻推理運算任務。這顯示出國產芯片在模型部署和應用層面已具備一定的替代能力。

但在算力金字塔的頂端——AI訓練領域，情況則截然不同。訓練芯片需要支撐十億、萬億乃至十萬億級參數的模型進行海量矩陣運算和參數調整，對計算能力、高能效比、高速帶寬和萬卡級集群穩定性有著極高要求。目前，這一核心地帶仍被英偉達A100、H100、H200以及AMD的MI300系列等海外高端產品牢牢掌控，國產芯片目前只能參與一些邊緣輔助任務。

這種結構性缺陷直接反映在中美大模型的差距上。在大模型Scaling Law規律驅動下，模型參數越大，算力需求呈線性甚至指數級增長。美國科技巨頭正以驚人的規模擴張算力基礎設施。僅Meta一家就計劃到2026年底部署超過120萬張高端GPU，年投入超1450億美元。據測算，谷歌擁有的AI總算力已相當於500萬塊英偉達H100，一家企業就佔到了全球總量的四分之一。亞馬遜、微軟、Alphabet和Meta四家公司今年的資本開支合計高達7250億美元，同比猛增77%。

相比之下，由於芯片出口管制，國內可用的高端芯片數量僅為美國的約八分之一。根據中國信息通信研究院的測算，截至2025年初，美國算力規模為2400 EFLOPS，中國為1053 EFLOPS，差距超過兩倍。上述四家美國科技巨頭任何一家的在手算力，都已超過中國所有AI企業的總和。這種碾壓式的算力優勢，使得美國企業可以在一年內完成十幾輪大模型迭代實驗。馬斯克旗下的xAI甚至擁有號稱全球“首個GW級AI集群”的Colossus 2，正在同時訓練包括6萬億和10萬億參數在內的多個模型，這種“暴力美學”完全建立在極度充裕的算力基礎之上。

算力基座的巨大落差，直接轉化為模型能力的代際差距。美國最前沿大模型已進入十萬億參數時代，Anthropic最強大的Mythos已達10萬億參數，訓練耗費高達100億美元。而中國最強模型DeepSeek V4 Pro總參數量為1.6萬億，與美國前沿相差約6倍。李開復近期在接受採訪時指出，以Anthropic的Claude Fable 5等美國頂尖模型為標杆，美國目前領先中國約15個月。由於大模型的預訓練決定了其能力上限，而預訓練的決定因子正是高端算力芯片，因此算力差距構成了中美模型差距的根源。

在全球GPU服務器市場，英偉達憑藉其先發優勢和強大的CUDA軟件生態，長期佔據壟斷地位。集邦諮詢數據顯示，2026年第一季度，英偉達一家吃掉了全球68%的市場份額，而國產GPU廠商整體佔比不足4%。CUDA生態經過十餘年深耕，擁有超400萬開發者、數十萬開源模型和全品類第三方工具鏈，全球95%以上的AI模型基於該生態開發，這構成了國產GPU最難逾越的軟性壁壘。

不過，國產替代的步伐並未停歇。在政策支持下，華為昇騰910、海光DCU深算2號、寒武紀思元370/590以及摩爾線程、沐曦等企業的產品相繼湧現。其中昇騰910B的算力已可媲美英偉達A100芯片。在推理與邊緣場景，國產GPU與英偉達中端產品的差距已縮小至15%-20%，具備了一定的替代可行性。更值得關注的是生態適配上的突破：今年1月，智譜聯合華為，基於昇騰Atlas 800T A2設備與昇思MindSpore框架，完成了首個依託國產芯片實現全程訓練的SOTA多模態模型；摩爾線程也與北京智源人工智能研究院合作，基於MTT S5000智算集群完成了具身大腦模型的全程訓練，首次驗證了國產算力集群在具身智能大模型訓練中的可用性。

整體來看，在海外先進芯片進口受限的背景下，中國AI產業正嘗試“中西結合”兩條腿走路，同時大力扶持國內算力芯片。國產GPU已從推理側的“單點突破”邁向訓練側的“逐步適配”，這本身就是一種長足進步。但正如中國工程院院士鄭緯民所指出的，國產AI芯片的核心問題在於生態不夠完善，如果生態能做好，即使性能只有別人的60%也會有人用。在這場關乎國運的AI對弈中，中美兩國既是對手，也各自擁有對方所需的技術、市場和資源，而算力基座的追趕，註定是一場考驗耐心與戰略定力的長跑。

國產GPU資本熱潮下的算力暗線：訓練側差距仍顯著

延伸閱讀

相關深度報道

相關每日新聞