国产芯片能训练万亿参数大模型吗？

能。美团 6 月 30 日开源的 LongCat-2.0 总参数 1.6 万亿，是国内首个在 5 万张国产 AI 芯片集群上完成预训练与推理全流程的大模型，预训练用了 30 万亿 Token。这证明国产算力能把万亿模型「训通」，但代价是极高的芯片数量与系统工程投入。

美团 LongCat-2.0 用的是什么芯片？

美团未公开点名具体型号，只说是 5 万张「国产 AI 芯片」组成的集群。按 IDC 数据，2025 年中国 AI 加速卡市场国产厂商合计出货约 165 万张、占比 41%，其中华为昇腾约 81.2 万张居首，是国产万卡级集群最可能的算力底座。

华为昇腾 910C 对比英伟达 H100 差多少？

据 SemiAnalysis 等估算，910C 的 FP16 单卡算力约 800 TFLOPS，约为 H100 的八成；内存带宽约 3.2 TB/s，已接近 H100 的约 3.35 TB/s。差距更多不在单卡纸面性能，而在软件生态、集群稳定性与迁移成本。

为什么训一个万亿模型要用到 5 万张卡这么多？

同级模型走英伟达路线通常用不了这么多卡。国产卡单卡性能与互联带宽略逊、软件效率有折损，只能靠堆更多芯片、更多电力和更重的系统工程去补短板，这抬高了总拥有成本。数量本身正是国产路线「贵在哪」的信号。

国产算力已经追平英伟达、绕过封锁了吗？

「能训通」不等于「能追平」。LongCat-2.0 证明的是战略意义上的可用性——卡不死、能活下去；但英伟达的护城河早已不在单卡算力，而在 HBM 高带宽内存、万卡互联组网和 CUDA 软件生态这三道更隐蔽的墙。国产是用高成本堆料绕过封锁，不是把成本追平。

国产算力能撑起万亿模型，但「撑起」二字藏着多少吃力 · 深度报道

五万张。

这是美团为训练一个模型动用的国产 AI 芯片数量。6 月 30 日，美团发布并开源 LongCat-2.0，总参数 1.6 万亿，官方称它是国内第一个在 5 万张国产芯片集群上跑完预训练与推理全流程的大模型^[1]。消息一出，「国产算力封锁失效」「自主闭环」的判断满天飞。

但同一量级的万亿参数稀疏模型，走英伟达路线通常动用几千张顶级 GPU 就能训成——DeepSeek 当年训 V3 对外披露的是两千张出头的 H800。五万张卡训一个 1.6 万亿的模型，是一个反常的数字。它不像胜利的勋章，更像一张账单：卡越多，往往意味着单卡越弱、系统越难协同、每一分算力被浪费得越多。

真正值得琢磨的，不是「国产卡能不能训出万亿模型」——LongCat-2.0 已经把这个问句划掉了——而是这五万张卡到底在替什么买单。

五万张卡替什么买单

LongCat-2.0 的技术选择本身就透着「省着用」的克制。它预训练吃了 30 万亿 Token，采用稀疏注意力加动态激活，推理时平均只激活约 480 亿参数——1.6 万亿的总盘子，真正参与每次计算的仅约 3%^[1]。这套混合专家（MoE）架构的意义，一半是模型能力，另一半是硬压显存占用和推理成本。当每张卡的显存和带宽都比对手紧张，你就得在架构层面精打细算，把「省」刻进设计里。

它原生支持 100 万 Token 的超长上下文，主攻智能体和代码场景，已经能接进 Claude Code、OpenClaw 这类开发工具，早前还以「Owl Alpha」的代号在 OpenRouter 上灰度过一阵^[1]。这是一个奔着实用去的模型，不是刷榜的花架子。

美团从 2023 年就开始推国产算力适配，近期还专门成立了「AI Transformation」部门^[1]。一家外卖公司为什么要啃这块最硬的骨头？答案藏在它对万卡集群难点的描述里：核心壁垒不在算力本身，而在节点协同与系统纠错——算子适配、通信库的异常处理、流水线调度^[1]。这句话是整件事的题眼。五万张卡真正的对手，不是「算得快不快」，而是「几万张卡能不能像一台机器一样不出错地协同几十天」。

英伟达十几年砸下的护城河，可以拆成四道墙。第一道是单卡算力——那一层最扎眼，却也是国产追得最紧、出口管制最想卡却最难彻底卡死的一道。真正难越的，是它身后那三道更隐蔽的墙：HBM、互联、软件。

第一道墙：单卡算力，反而是最不该焦虑的一层

最容易被误读成「差距」的，是单卡 FLOPS 这道墙。

据 SemiAnalysis 等机构估算，华为昇腾 910C 的 FP16 单卡算力约 800 TFLOPS，大约是英伟达 H100 的八成；内存带宽约 3.2 TB/s，已经贴到 H100 约 3.35 TB/s 的水平^[4]。代价是芯片逻辑面积比 H100 大出约六成^[4]——用更大的硅、双芯粒封装，去堆出接近的性能，效率不如对手，但纸面数字追得很近。

这就是关键的第一层认知翻转：单卡性能这道墙，国产其实已经爬得七七八八。出口管制卡的正是这一层——2023 年 10 月，美国叫停 H800、A800，连 H100、A100、L40S 一并纳入限制^[8]。可硅片这东西，一旦落地就难以追缴，走私、囤货、灰色渠道层出不穷；管制能拖慢速度，却封不死一颗芯片的物理性能被复制出来。910C 就是证据。

真正卡得住脖子的，是芯片背后那两样看不见的东西。

第二道墙：HBM，一道靠三家公司焊死的门

第一样是 HBM——高带宽内存。

大模型训练是不折不扣的「喂料」游戏：GPU 算得再快，数据喂不上来也是空转。HBM 就是那根喂料管，它把内存像盖楼一样垂直堆叠、贴着芯片封装，带宽甩开普通内存几十倍。910C 能把带宽做到 3.2 TB/s，靠的正是 8 颗 HBM 堆叠^[4]。没有 HBM，再大的硅片都是饿着肚子的巨人。

而全世界能量产先进 HBM 的，只有三家：SK 海力士、三星、美光^[5]。这是比光刻机更窄的一个瓶颈——EUV 光刻机至少还有 ASML 一家在卖，HBM 却是三家寡头把持的封闭俱乐部。

2024 年 12 月，美国把管制的手直接伸到了这里：新规限制 HBM 对华出口，且不论产地——美光在本土造的算、海力士和三星在海外造的也算，等于把这条喂料管从三个源头一齐拧紧^[5]^[7]。CSIS 把这一手形容为卡在「咽喉」上的管制^[6]。据 CNN 报道，规则落地前那个月，华为等中国公司抢囤了约 700 万颗三星 HBM，货值估计超过 10 亿美元^[5]——抢在门关上前把仓库塞满，这个动作本身就说明这道门有多硬。

昇腾能追上 H100 的带宽，一部分正是踩在这批囤货上。可囤货会用完，先进 HBM 的自主量产又被同一批管制卡着上游设备。这道墙的可怕之处不在当下，而在存量耗尽之后——它决定的不是「今天能不能训」，而是「明年、后年还能不能持续地训」。

第三道墙：让五万张卡变成「一台机器」

第二样看不见的东西，是互联。

单卡再强，几万张卡各自为战也是一盘散沙。训练万亿模型时，参数被切碎散在成千上万张卡里，每算一步都要海量地交换梯度、同步权重——卡与卡之间的通信带宽，往往才是真正的天花板。英伟达的答案是 NVLink 和 NVSwitch，把一整机柜的 GPU 用私有高速总线焊成一个逻辑整体，对外像一颗巨型芯片。它最新一代 GB200 NVL72 就是把 72 颗 GPU 拧成一个超节点。

华为绕这道墙的办法，是 CloudMatrix 384 超节点：用 384 颗昇腾 910C 拼成一个系统^[4]。数字很说明问题——英伟达用 72 颗做一个超节点，华为要用 384 颗，五倍还多。单卡弱，就用更密的互联和更多的芯片去补；SemiAnalysis 的评估是，靠这种「以量换质」的堆法，CloudMatrix 在系统级总算力上能压过 GB200 NVL72^[4]。

代价写在电表上。五倍数量的芯片意味着数倍的功耗、数倍的机房、数倍的散热与运维。系统级追平了性能，却是用能耗和资本开支这两笔更贵的成本换来的。这恰是「能训通」与「能追平」之间那条看不见的沟：跑通了，但跑得远不如对手划算。

而把这么多卡真正拧成一台机器，还需要通信库不出错、流水线调度不卡壳、任何一张卡挂掉时系统能自愈——这正是美团反复强调的节点协同与系统纠错^[1]。五万张卡连续跑几十天，只要纠错机制不够稳，一次崩溃就可能让几天的算力打水漂。这不是芯片问题，是系统工程问题，也是最吃人力、最难速成的一道功夫。

第四道墙：软件生态，最慢的那堵墙

最后一道墙，也是最容易被硬件参数掩盖的一道——软件。

英伟达真正的护城河叫 CUDA，一套铺了十几年的开发者生态。全世界的深度学习框架、算子库、调试工具都长在它上面，开发者的肌肉记忆也长在它上面。华为对应的是 CANN 加 MindSpore，昇腾要好用，就得让这套自己的软件栈把 CUDA 的活儿一件件补齐。

这道墙的高度，虎嗅那篇讲昆仑芯 IPO 的报道点得很透：AI 芯片的竞争维度，除了算力，还有集群稳定性、软件生态和开发者使用习惯；客户买了卡之后要完成模型迁移、算子适配、集群部署，工具越成熟，迁移成本越低、粘性越强^[2]。报道直言，昆仑芯背靠百度虽有场景，但在软件生态、客户覆盖和外部开发者影响力上，与华为的全栈体系仍有距离^[2]。连国产阵营内部，差距都先体现在软件而非硅片上。

软件生态是这四道墙里最慢的一堵。硅片可以靠堆料逼近，互联可以靠数量补足，唯独十几年的开发者习惯和算子积累没有捷径——它不是钱能一次性买断的，是时间的函数。每一次算子没适配、每一处效率折损，都在悄悄抬高国产路线那本已不低的账单。

谁在真金白银地爬这四道墙

把镜头拉远，市场数据能看清这场爬墙战的真实进度。

据 IDC，2025 年中国 AI 加速卡市场，国产厂商合计出货约 165 万张，占比升到 41%^[2]。这个 41% 是硬进展——两三年前还是英伟达一家独大的市场，如今国产已经拿下四成。其中华为昇腾约 81.2 万张，独占国产出货的近半壁；阿里平头哥约 26.5 万张居次；昆仑芯与寒武纪各约 11.6 万张，并列第三^[2]。

昇腾一家的出货，比其余三家加起来还多——这解释了为什么万卡级的国产集群，算力底座大概率落在昇腾身上。全栈自研（芯片、互联、软件一手包办）在系统工程上的优势，正在变成出货量上的领先。

昆仑芯的 IPO 剧本，则把这门生意的成色照得透亮：目标估值 500 亿美元，比母公司百度约 370 亿美元的市值还高；认购还附带条件——要先采购认购金额 3 到 7 倍的芯片；产品路线图排到 M100 主打 2026 年推理、M300 主打 2027 年训练^[2]。「先买芯片才让你认购」这种绑定，说明国产芯片的需求眼下更多靠生态内的战略采购托着，而非纯粹的市场竞价。这是一个被举国意志和产业政策浇灌起来的市场，不是一个自然生长的市场。

至于最上游的制程，华为方面宣称，在出口管制的约束下，计划到 2031 年追平台积电最先进制程——这是华为的说法，据 SemiWiki 的评论转述，属预期而非既成事实^[3]。五年的时间表本身，就是差距还在的诚实注脚。

「闭环」是两个词

回到那个满天飞的判断：LongCat-2.0 是不是证明国产算力「闭环」了？

答案取决于「闭环」是哪个意思。

如果指战略意义——不被卡脖子、封锁之下还能活下去、万亿模型该训还能训——那么是的，这个环闭上了。英伟达 H20 在 2025 年 4 月一度被收紧到需逐单许可、年中才附条件恢复；更先进的 H200 直到 2026 年初才获批对华销售，且要逐单审批、并向美国政府上缴高达 25% 的销售分成^[9]^[10]^[11]。供应随政治风向摇摆的时候，「自己能训」本身就是一种战略保险。LongCat-2.0 兑现的正是这份保险：卡不死、能活。

但如果指经济意义——和英伟达路线一样划算、一样省电、一样好用——那么这个环远没闭上，甚至看不清哪天能闭。五万张卡对几千张卡，384 颗对 72 颗，八成的单卡算力，未量产的先进 HBM，还在补课的软件栈——每一项背后都是更高的芯片数量、电力、资本开支和人力。国产算力是用「堆数量、堆电、堆系统工程、堆人力」这套高总拥有成本的打法，绕过了单点性能的封锁，换来一次「能跑通」。

这才是那五万张卡真正买下的东西：不是一张追平英伟达的入场券，而是一份「就算被断供也不会停摆」的底气。诚实地说，国产算力确实撑起了万亿模型——但「撑起」二字，掩盖了它撑得多吃力、多贵、多依赖举国式的堆料去补短板。

差距没有消失，只是换了坐标。它从「能不能」变成了「多贵、多久能可持续」。前一个问题，LongCat-2.0 用五万张卡回答了；后一个问题的答案，藏在 HBM 的存量能撑多久、软件生态多快补齐、以及那本越堆越厚的电费与资本开支账单里。对下游的 AI 基建和模型层而言，真正该盯的也不再是「国产能不能训模型」这个已经过时的问句，而是国产算力的单位成本曲线——它往下走的斜率，才决定这场爬墙战最终是场胜仗，还是一场旷日持久、烧钱不止的消耗战。

国产算力能撑起万亿模型，但「撑起」二字藏着多少吃力

五万张卡替什么买单

第一道墙：单卡算力，反而是最不该焦虑的一层

第二道墙：HBM，一道靠三家公司焊死的门

第三道墙：让五万张卡变成「一台机器」

第四道墙：软件生态，最慢的那堵墙

谁在真金白银地爬这四道墙

「闭环」是两个词

常见问题

参考来源

五万张卡替什么买单

第一道墙：单卡算力，反而是最不该焦虑的一层

第二道墙：HBM，一道靠三家公司焊死的门

第三道墙：让五万张卡变成「一台机器」

第四道墙：软件生态，最慢的那堵墙

谁在真金白银地爬这四道墙

「闭环」是两个词

常见问题

参考来源

同系列往期

相关百科

相关每日新闻