五萬張。
這是美團為訓練一個模型動用的國產 AI 芯片數量。6 月 30 日,美團發佈並開源 LongCat-2.0,總參數 1.6 萬億,官方稱它是國內第一個在 5 萬張國產芯片集群上跑完預訓練與推理全流程的大模型[1]。消息一齣,「國產算力封鎖失效」「自主閉環」的判斷滿天飛。
但同一量級的萬億參數稀疏模型,走英偉達路線通常動用幾千張頂級 GPU 就能訓成——DeepSeek 當年訓 V3 對外披露的是兩千張出頭的 H800。五萬張卡訓一個 1.6 萬億的模型,是一個反常的數字。它不像勝利的勳章,更像一張賬單:卡越多,往往意味著單卡越弱、系統越難協同、每一分算力被浪費得越多。
真正值得琢磨的,不是「國產卡能不能訓出萬億模型」——LongCat-2.0 已經把這個問句劃掉了——而是這五萬張卡到底在替什麼買單。
五萬張卡替什麼買單
LongCat-2.0 的技術選擇本身就透著「省著用」的剋制。它預訓練吃了 30 萬億 Token,採用稀疏注意力加動態激活,推理時平均只激活約 480 億參數——1.6 萬億的總盤子,真正參與每次計算的僅約 3%[1]。這套混合專家(MoE)架構的意義,一半是模型能力,另一半是硬壓顯存佔用和推理成本。當每張卡的顯存和帶寬都比對手緊張,你就得在架構層面精打細算,把「省」刻進設計裡。
它原生支持 100 萬 Token 的超長上下文,主攻智能體和代碼場景,已經能接進 Claude Code、OpenClaw 這類開發工具,早前還以「Owl Alpha」的代號在 OpenRouter 上灰度過一陣[1]。這是一個奔著實用去的模型,不是刷榜的花架子。
美團從 2023 年就開始推國產算力適配,近期還專門成立了「AI Transformation」部門[1]。一家外賣公司為什麼要啃這塊最硬的骨頭?答案藏在它對萬卡集群難點的描述裡:核心壁壘不在算力本身,而在節點協同與系統糾錯——算子適配、通信庫的異常處理、流水線調度[1]。這句話是整件事的題眼。五萬張卡真正的對手,不是「算得快不快」,而是「幾萬張卡能不能像一臺機器一樣不出錯地協同幾十天」。
英偉達十幾年砸下的護城河,可以拆成四道牆。第一道是單卡算力——那一層最扎眼,卻也是國產追得最緊、出口管制最想卡卻最難徹底卡死的一道。真正難越的,是它身後那三道更隱蔽的牆:HBM、互聯、軟件。
第一道牆:單卡算力,反而是最不該焦慮的一層
最容易被誤讀成「差距」的,是單卡 FLOPS 這道牆。
據 SemiAnalysis 等機構估算,華為昇騰 910C 的 FP16 單卡算力約 800 TFLOPS,大約是英偉達 H100 的八成;內存帶寬約 3.2 TB/s,已經貼到 H100 約 3.35 TB/s 的水平[4]。代價是芯片邏輯面積比 H100 大出約六成[4]——用更大的硅、雙芯粒封裝,去堆出接近的性能,效率不如對手,但紙面數字追得很近。
這就是關鍵的第一層認知翻轉:單卡性能這道牆,國產其實已經爬得七七八八。出口管制卡的正是這一層——2023 年 10 月,美國叫停 H800、A800,連 H100、A100、L40S 一併納入限制[8]。可硅片這東西,一旦落地就難以追繳,走私、囤貨、灰色渠道層出不窮;管制能拖慢速度,卻封不死一顆芯片的物理性能被複製出來。910C 就是證據。
真正卡得住脖子的,是芯片背後那兩樣看不見的東西。
第二道牆:HBM,一道靠三家公司焊死的門
第一樣是 HBM——高帶寬內存。
大模型訓練是不折不扣的「喂料」遊戲:GPU 算得再快,數據喂不上來也是空轉。HBM 就是那根喂料管,它把內存像蓋樓一樣垂直堆疊、貼著芯片封裝,帶寬甩開普通內存幾十倍。910C 能把帶寬做到 3.2 TB/s,靠的正是 8 顆 HBM 堆疊[4]。沒有 HBM,再大的硅片都是餓著肚子的巨人。
而全世界能量產先進 HBM 的,只有三家:SK 海力士、三星、美光[5]。這是比光刻機更窄的一個瓶頸——EUV 光刻機至少還有 ASML 一家在賣,HBM 卻是三家寡頭把持的封閉俱樂部。
2024 年 12 月,美國把管制的手直接伸到了這裡:新規限制 HBM 對華出口,且不論產地——美光在本土造的算、海力士和三星在海外造的也算,等於把這條喂料管從三個源頭一齊擰緊[5][7]。CSIS 把這一手形容為卡在「咽喉」上的管制[6]。據 CNN 報道,規則落地前那個月,華為等中國公司搶囤了約 700 萬顆三星 HBM,貨值估計超過 10 億美元[5]——搶在門關上前把倉庫塞滿,這個動作本身就說明這道門有多硬。
昇騰能追上 H100 的帶寬,一部分正是踩在這批囤貨上。可囤貨會用完,先進 HBM 的自主量產又被同一批管制卡著上游設備。這道牆的可怕之處不在當下,而在存量耗盡之後——它決定的不是「今天能不能訓」,而是「明年、後年還能不能持續地訓」。
第三道牆:讓五萬張卡變成「一臺機器」
第二樣看不見的東西,是互聯。
單卡再強,幾萬張卡各自為戰也是一盤散沙。訓練萬億模型時,參數被切碎散在成千上萬張卡里,每算一步都要海量地交換梯度、同步權重——卡與卡之間的通信帶寬,往往才是真正的天花板。英偉達的答案是 NVLink 和 NVSwitch,把一整機櫃的 GPU 用私有高速總線焊成一個邏輯整體,對外像一顆巨型芯片。它最新一代 GB200 NVL72 就是把 72 顆 GPU 擰成一個超節點。
華為繞這道牆的辦法,是 CloudMatrix 384 超節點:用 384 顆昇騰 910C 拼成一個系統[4]。數字很說明問題——英偉達用 72 顆做一個超節點,華為要用 384 顆,五倍還多。單卡弱,就用更密的互聯和更多的芯片去補;SemiAnalysis 的評估是,靠這種「以量換質」的堆法,CloudMatrix 在系統級總算力上能壓過 GB200 NVL72[4]。
代價寫在電錶上。五倍數量的芯片意味著數倍的功耗、數倍的機房、數倍的散熱與運維。系統級追平了性能,卻是用能耗和資本開支這兩筆更貴的成本換來的。這恰是「能訓通」與「能追平」之間那條看不見的溝:跑通了,但跑得遠不如對手划算。
而把這麼多卡真正擰成一臺機器,還需要通信庫不出錯、流水線調度不卡殼、任何一張卡掛掉時系統能自愈——這正是美團反覆強調的節點協同與系統糾錯[1]。五萬張卡連續跑幾十天,只要糾錯機制不夠穩,一次崩潰就可能讓幾天的算力打水漂。這不是芯片問題,是系統工程問題,也是最吃人力、最難速成的一道功夫。
第四道牆:軟件生態,最慢的那堵牆
最後一道牆,也是最容易被硬件參數掩蓋的一道——軟件。
英偉達真正的護城河叫 CUDA,一套鋪了十幾年的開發者生態。全世界的深度學習框架、算子庫、調試工具都長在它上面,開發者的肌肉記憶也長在它上面。華為對應的是 CANN 加 MindSpore,昇騰要好用,就得讓這套自己的軟件棧把 CUDA 的活兒一件件補齊。
這道牆的高度,虎嗅那篇講崑崙芯 IPO 的報道點得很透:AI 芯片的競爭維度,除了算力,還有集群穩定性、軟件生態和開發者使用習慣;客戶買了卡之後要完成模型遷移、算子適配、集群部署,工具越成熟,遷移成本越低、粘性越強[2]。報道直言,崑崙芯背靠百度雖有場景,但在軟件生態、客戶覆蓋和外部開發者影響力上,與華為的全棧體系仍有距離[2]。連國產陣營內部,差距都先體現在軟件而非硅片上。
軟件生態是這四道牆裡最慢的一堵。硅片可以靠堆料逼近,互聯可以靠數量補足,唯獨十幾年的開發者習慣和算子積累沒有捷徑——它不是錢能一次性買斷的,是時間的函數。每一次算子沒適配、每一處效率折損,都在悄悄抬高國產路線那本已不低的賬單。
誰在真金白銀地爬這四道牆
把鏡頭拉遠,市場數據能看清這場爬牆戰的真實進度。
據 IDC,2025 年中國 AI 加速卡市場,國產廠商合計出貨約 165 萬張,佔比升到 41%[2]。這個 41% 是硬進展——兩三年前還是英偉達一家獨大的市場,如今國產已經拿下四成。其中華為昇騰約 81.2 萬張,獨佔國產出貨的近半壁;阿里平頭哥約 26.5 萬張居次;崑崙芯與寒武紀各約 11.6 萬張,並列第三[2]。
昇騰一家的出貨,比其餘三家加起來還多——這解釋了為什麼萬卡級的國產集群,算力底座大概率落在昇騰身上。全棧自研(芯片、互聯、軟件一手包辦)在系統工程上的優勢,正在變成出貨量上的領先。
崑崙芯的 IPO 劇本,則把這門生意的成色照得透亮:目標估值 500 億美元,比母公司百度約 370 億美元的市值還高;認購還附帶條件——要先採購認購金額 3 到 7 倍的芯片;產品路線圖排到 M100 主打 2026 年推理、M300 主打 2027 年訓練[2]。「先買芯片才讓你認購」這種綁定,說明國產芯片的需求眼下更多靠生態內的戰略採購託著,而非純粹的市場競價。這是一個被舉國意志和產業政策澆灌起來的市場,不是一個自然生長的市場。
至於最上游的製程,華為方面宣稱,在出口管制的約束下,計劃到 2031 年追平臺積電最先進製程——這是華為的說法,據 SemiWiki 的評論轉述,屬預期而非既成事實[3]。五年的時間表本身,就是差距還在的誠實註腳。
「閉環」是兩個詞
回到那個滿天飛的判斷:LongCat-2.0 是不是證明國產算力「閉環」了?
答案取決於「閉環」是哪個意思。
如果指戰略意義——不被卡脖子、封鎖之下還能活下去、萬億模型該訓還能訓——那麼是的,這個環閉上了。英偉達 H20 在 2025 年 4 月一度被收緊到需逐單許可、年中才附條件恢復;更先進的 H200 直到 2026 年初才獲批對華銷售,且要逐單審批、並向美國政府上繳高達 25% 的銷售分成[9][10][11]。供應隨政治風向搖擺的時候,「自己能訓」本身就是一種戰略保險。LongCat-2.0 兌現的正是這份保險:卡不死、能活。
但如果指經濟意義——和英偉達路線一樣划算、一樣省電、一樣好用——那麼這個環遠沒閉上,甚至看不清哪天能閉。五萬張卡對幾千張卡,384 顆對 72 顆,八成的單卡算力,未量產的先進 HBM,還在補課的軟件棧——每一項背後都是更高的芯片數量、電力、資本開支和人力。國產算力是用「堆數量、堆電、堆系統工程、堆人力」這套高總擁有成本的打法,繞過了單點性能的封鎖,換來一次「能跑通」。
這才是那五萬張卡真正買下的東西:不是一張追平英偉達的入場券,而是一份「就算被斷供也不會停擺」的底氣。誠實地說,國產算力確實撐起了萬億模型——但「撐起」二字,掩蓋了它撐得多吃力、多貴、多依賴舉國式的堆料去補短板。
差距沒有消失,只是換了座標。它從「能不能」變成了「多貴、多久能可持續」。前一個問題,LongCat-2.0 用五萬張卡回答了;後一個問題的答案,藏在 HBM 的存量能撐多久、軟件生態多快補齊、以及那本越堆越厚的電費與資本開支賬單裡。對下游的 AI 基建和模型層而言,真正該盯的也不再是「國產能不能訓模型」這個已經過時的問句,而是國產算力的單位成本曲線——它往下走的斜率,才決定這場爬牆戰最終是場勝仗,還是一場曠日持久、燒錢不止的消耗戰。