國產芯片能訓練萬億參數大模型嗎？

能。美團 6 月 30 日開源的 LongCat-2.0 總參數 1.6 萬億，是國內首個在 5 萬張國產 AI 芯片集群上完成預訓練與推理全流程的大模型，預訓練用了 30 萬億 Token。這證明國產算力能把萬億模型「訓通」，但代價是極高的芯片數量與系統工程投入。

美團 LongCat-2.0 用的是什麼芯片？

美團未公開點名具體型號，只說是 5 萬張「國產 AI 芯片」組成的集群。按 IDC 數據，2025 年中國 AI 加速卡市場國產廠商合計出貨約 165 萬張、佔比 41%，其中華為昇騰約 81.2 萬張居首，是國產萬卡級集群最可能的算力底座。

華為昇騰 910C 對比英偉達 H100 差多少？

據 SemiAnalysis 等估算，910C 的 FP16 單卡算力約 800 TFLOPS，約為 H100 的八成；內存帶寬約 3.2 TB/s，已接近 H100 的約 3.35 TB/s。差距更多不在單卡紙面性能，而在軟件生態、集群穩定性與遷移成本。

為什麼訓一個萬億模型要用到 5 萬張卡這麼多？

同級模型走英偉達路線通常用不了這麼多卡。國產卡單卡性能與互聯帶寬略遜、軟件效率有折損，只能靠堆更多芯片、更多電力和更重的系統工程去補短板，這抬高了總擁有成本。數量本身正是國產路線「貴在哪」的信號。

國產算力已經追平英偉達、繞過封鎖了嗎？

「能訓通」不等於「能追平」。LongCat-2.0 證明的是戰略意義上的可用性——卡不死、能活下去；但英偉達的護城河早已不在單卡算力，而在 HBM 高帶寬內存、萬卡互聯組網和 CUDA 軟件生態這三道更隱蔽的牆。國產是用高成本堆料繞過封鎖，不是把成本追平。

國產算力能撐起萬億模型，但「撐起」二字藏著多少吃力 · 深度報道

五萬張。

這是美團為訓練一個模型動用的國產 AI 芯片數量。6 月 30 日，美團發佈並開源 LongCat-2.0，總參數 1.6 萬億，官方稱它是國內第一個在 5 萬張國產芯片集群上跑完預訓練與推理全流程的大模型^[1]。消息一齣，「國產算力封鎖失效」「自主閉環」的判斷滿天飛。

但同一量級的萬億參數稀疏模型，走英偉達路線通常動用幾千張頂級 GPU 就能訓成——DeepSeek 當年訓 V3 對外披露的是兩千張出頭的 H800。五萬張卡訓一個 1.6 萬億的模型，是一個反常的數字。它不像勝利的勳章，更像一張賬單：卡越多，往往意味著單卡越弱、系統越難協同、每一分算力被浪費得越多。

真正值得琢磨的，不是「國產卡能不能訓出萬億模型」——LongCat-2.0 已經把這個問句劃掉了——而是這五萬張卡到底在替什麼買單。

五萬張卡替什麼買單

LongCat-2.0 的技術選擇本身就透著「省著用」的剋制。它預訓練吃了 30 萬億 Token，採用稀疏注意力加動態激活，推理時平均只激活約 480 億參數——1.6 萬億的總盤子，真正參與每次計算的僅約 3%^[1]。這套混合專家（MoE）架構的意義，一半是模型能力，另一半是硬壓顯存佔用和推理成本。當每張卡的顯存和帶寬都比對手緊張，你就得在架構層面精打細算，把「省」刻進設計裡。

它原生支持 100 萬 Token 的超長上下文，主攻智能體和代碼場景，已經能接進 Claude Code、OpenClaw 這類開發工具，早前還以「Owl Alpha」的代號在 OpenRouter 上灰度過一陣^[1]。這是一個奔著實用去的模型，不是刷榜的花架子。

美團從 2023 年就開始推國產算力適配，近期還專門成立了「AI Transformation」部門^[1]。一家外賣公司為什麼要啃這塊最硬的骨頭？答案藏在它對萬卡集群難點的描述裡：核心壁壘不在算力本身，而在節點協同與系統糾錯——算子適配、通信庫的異常處理、流水線調度^[1]。這句話是整件事的題眼。五萬張卡真正的對手，不是「算得快不快」，而是「幾萬張卡能不能像一臺機器一樣不出錯地協同幾十天」。

英偉達十幾年砸下的護城河，可以拆成四道牆。第一道是單卡算力——那一層最扎眼，卻也是國產追得最緊、出口管制最想卡卻最難徹底卡死的一道。真正難越的，是它身後那三道更隱蔽的牆：HBM、互聯、軟件。

第一道牆：單卡算力，反而是最不該焦慮的一層

最容易被誤讀成「差距」的，是單卡 FLOPS 這道牆。

據 SemiAnalysis 等機構估算，華為昇騰 910C 的 FP16 單卡算力約 800 TFLOPS，大約是英偉達 H100 的八成；內存帶寬約 3.2 TB/s，已經貼到 H100 約 3.35 TB/s 的水平^[4]。代價是芯片邏輯面積比 H100 大出約六成^[4]——用更大的硅、雙芯粒封裝，去堆出接近的性能，效率不如對手，但紙面數字追得很近。

這就是關鍵的第一層認知翻轉：單卡性能這道牆，國產其實已經爬得七七八八。出口管制卡的正是這一層——2023 年 10 月，美國叫停 H800、A800，連 H100、A100、L40S 一併納入限制^[8]。可硅片這東西，一旦落地就難以追繳，走私、囤貨、灰色渠道層出不窮；管制能拖慢速度，卻封不死一顆芯片的物理性能被複製出來。910C 就是證據。

真正卡得住脖子的，是芯片背後那兩樣看不見的東西。

第二道牆：HBM，一道靠三家公司焊死的門

第一樣是 HBM——高帶寬內存。

大模型訓練是不折不扣的「喂料」遊戲：GPU 算得再快，數據喂不上來也是空轉。HBM 就是那根喂料管，它把內存像蓋樓一樣垂直堆疊、貼著芯片封裝，帶寬甩開普通內存幾十倍。910C 能把帶寬做到 3.2 TB/s，靠的正是 8 顆 HBM 堆疊^[4]。沒有 HBM，再大的硅片都是餓著肚子的巨人。

而全世界能量產先進 HBM 的，只有三家：SK 海力士、三星、美光^[5]。這是比光刻機更窄的一個瓶頸——EUV 光刻機至少還有 ASML 一家在賣，HBM 卻是三家寡頭把持的封閉俱樂部。

2024 年 12 月，美國把管制的手直接伸到了這裡：新規限制 HBM 對華出口，且不論產地——美光在本土造的算、海力士和三星在海外造的也算，等於把這條喂料管從三個源頭一齊擰緊^[5]^[7]。CSIS 把這一手形容為卡在「咽喉」上的管制^[6]。據 CNN 報道，規則落地前那個月，華為等中國公司搶囤了約 700 萬顆三星 HBM，貨值估計超過 10 億美元^[5]——搶在門關上前把倉庫塞滿，這個動作本身就說明這道門有多硬。

昇騰能追上 H100 的帶寬，一部分正是踩在這批囤貨上。可囤貨會用完，先進 HBM 的自主量產又被同一批管制卡著上游設備。這道牆的可怕之處不在當下，而在存量耗盡之後——它決定的不是「今天能不能訓」，而是「明年、後年還能不能持續地訓」。

第三道牆：讓五萬張卡變成「一臺機器」

第二樣看不見的東西，是互聯。

單卡再強，幾萬張卡各自為戰也是一盤散沙。訓練萬億模型時，參數被切碎散在成千上萬張卡里，每算一步都要海量地交換梯度、同步權重——卡與卡之間的通信帶寬，往往才是真正的天花板。英偉達的答案是 NVLink 和 NVSwitch，把一整機櫃的 GPU 用私有高速總線焊成一個邏輯整體，對外像一顆巨型芯片。它最新一代 GB200 NVL72 就是把 72 顆 GPU 擰成一個超節點。

華為繞這道牆的辦法，是 CloudMatrix 384 超節點：用 384 顆昇騰 910C 拼成一個系統^[4]。數字很說明問題——英偉達用 72 顆做一個超節點，華為要用 384 顆，五倍還多。單卡弱，就用更密的互聯和更多的芯片去補；SemiAnalysis 的評估是，靠這種「以量換質」的堆法，CloudMatrix 在系統級總算力上能壓過 GB200 NVL72^[4]。

代價寫在電錶上。五倍數量的芯片意味著數倍的功耗、數倍的機房、數倍的散熱與運維。系統級追平了性能，卻是用能耗和資本開支這兩筆更貴的成本換來的。這恰是「能訓通」與「能追平」之間那條看不見的溝：跑通了，但跑得遠不如對手划算。

而把這麼多卡真正擰成一臺機器，還需要通信庫不出錯、流水線調度不卡殼、任何一張卡掛掉時系統能自愈——這正是美團反覆強調的節點協同與系統糾錯^[1]。五萬張卡連續跑幾十天，只要糾錯機制不夠穩，一次崩潰就可能讓幾天的算力打水漂。這不是芯片問題，是系統工程問題，也是最吃人力、最難速成的一道功夫。

第四道牆：軟件生態，最慢的那堵牆

最後一道牆，也是最容易被硬件參數掩蓋的一道——軟件。

英偉達真正的護城河叫 CUDA，一套鋪了十幾年的開發者生態。全世界的深度學習框架、算子庫、調試工具都長在它上面，開發者的肌肉記憶也長在它上面。華為對應的是 CANN 加 MindSpore，昇騰要好用，就得讓這套自己的軟件棧把 CUDA 的活兒一件件補齊。

這道牆的高度，虎嗅那篇講崑崙芯 IPO 的報道點得很透：AI 芯片的競爭維度，除了算力，還有集群穩定性、軟件生態和開發者使用習慣；客戶買了卡之後要完成模型遷移、算子適配、集群部署，工具越成熟，遷移成本越低、粘性越強^[2]。報道直言，崑崙芯背靠百度雖有場景，但在軟件生態、客戶覆蓋和外部開發者影響力上，與華為的全棧體系仍有距離^[2]。連國產陣營內部，差距都先體現在軟件而非硅片上。

軟件生態是這四道牆裡最慢的一堵。硅片可以靠堆料逼近，互聯可以靠數量補足，唯獨十幾年的開發者習慣和算子積累沒有捷徑——它不是錢能一次性買斷的，是時間的函數。每一次算子沒適配、每一處效率折損，都在悄悄抬高國產路線那本已不低的賬單。

誰在真金白銀地爬這四道牆

把鏡頭拉遠，市場數據能看清這場爬牆戰的真實進度。

據 IDC，2025 年中國 AI 加速卡市場，國產廠商合計出貨約 165 萬張，佔比升到 41%^[2]。這個 41% 是硬進展——兩三年前還是英偉達一家獨大的市場，如今國產已經拿下四成。其中華為昇騰約 81.2 萬張，獨佔國產出貨的近半壁；阿里平頭哥約 26.5 萬張居次；崑崙芯與寒武紀各約 11.6 萬張，並列第三^[2]。

昇騰一家的出貨，比其餘三家加起來還多——這解釋了為什麼萬卡級的國產集群，算力底座大概率落在昇騰身上。全棧自研（芯片、互聯、軟件一手包辦）在系統工程上的優勢，正在變成出貨量上的領先。

崑崙芯的 IPO 劇本，則把這門生意的成色照得透亮：目標估值 500 億美元，比母公司百度約 370 億美元的市值還高；認購還附帶條件——要先採購認購金額 3 到 7 倍的芯片；產品路線圖排到 M100 主打 2026 年推理、M300 主打 2027 年訓練^[2]。「先買芯片才讓你認購」這種綁定，說明國產芯片的需求眼下更多靠生態內的戰略採購託著，而非純粹的市場競價。這是一個被舉國意志和產業政策澆灌起來的市場，不是一個自然生長的市場。

至於最上游的製程，華為方面宣稱，在出口管制的約束下，計劃到 2031 年追平臺積電最先進製程——這是華為的說法，據 SemiWiki 的評論轉述，屬預期而非既成事實^[3]。五年的時間表本身，就是差距還在的誠實註腳。

「閉環」是兩個詞

回到那個滿天飛的判斷：LongCat-2.0 是不是證明國產算力「閉環」了？

答案取決於「閉環」是哪個意思。

如果指戰略意義——不被卡脖子、封鎖之下還能活下去、萬億模型該訓還能訓——那麼是的，這個環閉上了。英偉達 H20 在 2025 年 4 月一度被收緊到需逐單許可、年中才附條件恢復；更先進的 H200 直到 2026 年初才獲批對華銷售，且要逐單審批、並向美國政府上繳高達 25% 的銷售分成^[9]^[10]^[11]。供應隨政治風向搖擺的時候，「自己能訓」本身就是一種戰略保險。LongCat-2.0 兌現的正是這份保險：卡不死、能活。

但如果指經濟意義——和英偉達路線一樣划算、一樣省電、一樣好用——那麼這個環遠沒閉上，甚至看不清哪天能閉。五萬張卡對幾千張卡，384 顆對 72 顆，八成的單卡算力，未量產的先進 HBM，還在補課的軟件棧——每一項背後都是更高的芯片數量、電力、資本開支和人力。國產算力是用「堆數量、堆電、堆系統工程、堆人力」這套高總擁有成本的打法，繞過了單點性能的封鎖，換來一次「能跑通」。

這才是那五萬張卡真正買下的東西：不是一張追平英偉達的入場券，而是一份「就算被斷供也不會停擺」的底氣。誠實地說，國產算力確實撐起了萬億模型——但「撐起」二字，掩蓋了它撐得多吃力、多貴、多依賴舉國式的堆料去補短板。

差距沒有消失，只是換了座標。它從「能不能」變成了「多貴、多久能可持續」。前一個問題，LongCat-2.0 用五萬張卡回答了；後一個問題的答案，藏在 HBM 的存量能撐多久、軟件生態多快補齊、以及那本越堆越厚的電費與資本開支賬單裡。對下游的 AI 基建和模型層而言，真正該盯的也不再是「國產能不能訓模型」這個已經過時的問句，而是國產算力的單位成本曲線——它往下走的斜率，才決定這場爬牆戰最終是場勝仗，還是一場曠日持久、燒錢不止的消耗戰。

國產算力能撐起萬億模型，但「撐起」二字藏著多少吃力

五萬張卡替什麼買單

第一道牆：單卡算力，反而是最不該焦慮的一層

第二道牆：HBM，一道靠三家公司焊死的門

第三道牆：讓五萬張卡變成「一臺機器」

第四道牆：軟件生態，最慢的那堵牆

誰在真金白銀地爬這四道牆

「閉環」是兩個詞

常見問題

參考來源

五萬張卡替什麼買單

第一道牆：單卡算力，反而是最不該焦慮的一層

第二道牆：HBM，一道靠三家公司焊死的門

第三道牆：讓五萬張卡變成「一臺機器」

第四道牆：軟件生態，最慢的那堵牆

誰在真金白銀地爬這四道牆

「閉環」是兩個詞

常見問題

參考來源

同系列往期

相關百科

相關每日新聞