自去年底以來,摩爾線程沐曦股份壁仞科技天數智芯等一批國產GPU廠商在二級市場掀起了一輪資本熱浪,吸引了大量投資者的目光。然而,在這波財富盛宴的喧囂之下,一條關於算力結構的暗線正變得愈發清晰,其引發的產業難題也日益迫切。

過去幾年,國產AI芯片的突破主要集中在相對安全且處於算力金字塔邊緣的推理側。一個典型的案例是,近期中國最大的AI應用終端豆包計劃大規模採購天數智芯5萬塊芯片,專門用於處理高頻推理運算任務。這顯示出國產芯片在模型部署和應用層面已具備一定的替代能力。

但在算力金字塔的頂端——AI訓練領域,情況則截然不同。訓練芯片需要支撐十億、萬億乃至十萬億級參數的模型進行海量矩陣運算和參數調整,對計算能力、高能效比、高速帶寬和萬卡級集群穩定性有著極高要求。目前,這一核心地帶仍被英偉達A100、H100、H200以及AMD的MI300系列等海外高端產品牢牢掌控,國產芯片目前只能參與一些邊緣輔助任務。

這種結構性缺陷直接反映在中美大模型的差距上。在大模型Scaling Law規律驅動下,模型參數越大,算力需求呈線性甚至指數級增長。美國科技巨頭正以驚人的規模擴張算力基礎設施。僅Meta一家就計劃到2026年底部署超過120萬張高端GPU,年投入超1450億美元。據測算,谷歌擁有的AI總算力已相當於500萬塊英偉達H100,一家企業就佔到了全球總量的四分之一。亞馬遜、微軟、Alphabet和Meta四家公司今年的資本開支合計高達7250億美元,同比猛增77%

相比之下,由於芯片出口管制,國內可用的高端芯片數量僅為美國的約八分之一。根據中國信息通信研究院的測算,截至2025年初,美國算力規模為2400 EFLOPS,中國為1053 EFLOPS,差距超過兩倍。上述四家美國科技巨頭任何一家的在手算力,都已超過中國所有AI企業的總和。這種碾壓式的算力優勢,使得美國企業可以在一年內完成十幾輪大模型迭代實驗。馬斯克旗下的xAI甚至擁有號稱全球“首個GW級AI集群”的Colossus 2,正在同時訓練包括6萬億10萬億參數在內的多個模型,這種“暴力美學”完全建立在極度充裕的算力基礎之上。

算力基座的巨大落差,直接轉化為模型能力的代際差距。美國最前沿大模型已進入十萬億參數時代,Anthropic最強大的Mythos已達10萬億參數,訓練耗費高達100億美元。而中國最強模型DeepSeek V4 Pro總參數量為1.6萬億,與美國前沿相差約6倍。李開復近期在接受採訪時指出,以Anthropic的Claude Fable 5等美國頂尖模型為標杆,美國目前領先中國約15個月。由於大模型的預訓練決定了其能力上限,而預訓練的決定因子正是高端算力芯片,因此算力差距構成了中美模型差距的根源。

在全球GPU服務器市場,英偉達憑藉其先發優勢和強大的CUDA軟件生態,長期佔據壟斷地位。集邦諮詢數據顯示,2026年第一季度,英偉達一家吃掉了全球68%的市場份額,而國產GPU廠商整體佔比不足4%CUDA生態經過十餘年深耕,擁有超400萬開發者、數十萬開源模型和全品類第三方工具鏈,全球95%以上的AI模型基於該生態開發,這構成了國產GPU最難逾越的軟性壁壘。

不過,國產替代的步伐並未停歇。在政策支持下,華為昇騰910海光DCU深算2號寒武紀思元370/590以及摩爾線程、沐曦等企業的產品相繼湧現。其中昇騰910B的算力已可媲美英偉達A100芯片。在推理與邊緣場景,國產GPU與英偉達中端產品的差距已縮小至15%-20%,具備了一定的替代可行性。更值得關注的是生態適配上的突破:今年1月,智譜聯合華為,基於昇騰Atlas 800T A2設備與昇思MindSpore框架,完成了首個依託國產芯片實現全程訓練的SOTA多模態模型;摩爾線程也與北京智源人工智能研究院合作,基於MTT S5000智算集群完成了具身大腦模型的全程訓練,首次驗證了國產算力集群在具身智能大模型訓練中的可用性。

整體來看,在海外先進芯片進口受限的背景下,中國AI產業正嘗試“中西結合”兩條腿走路,同時大力扶持國內算力芯片。國產GPU已從推理側的“單點突破”邁向訓練側的“逐步適配”,這本身就是一種長足進步。但正如中國工程院院士鄭緯民所指出的,國產AI芯片的核心問題在於生態不夠完善,如果生態能做好,即使性能只有別人的60%也會有人用。在這場關乎國運的AI對弈中,中美兩國既是對手,也各自擁有對方所需的技術、市場和資源,而算力基座的追趕,註定是一場考驗耐心與戰略定力的長跑。