五万张。

这是美团为训练一个模型动用的国产 AI 芯片数量。6 月 30 日,美团发布并开源 LongCat-2.0,总参数 1.6 万亿,官方称它是国内第一个在 5 万张国产芯片集群上跑完预训练与推理全流程的大模型[1]。消息一出,「国产算力封锁失效」「自主闭环」的判断满天飞。

但同一量级的万亿参数稀疏模型,走英伟达路线通常动用几千张顶级 GPU 就能训成——DeepSeek 当年训 V3 对外披露的是两千张出头的 H800。五万张卡训一个 1.6 万亿的模型,是一个反常的数字。它不像胜利的勋章,更像一张账单:卡越多,往往意味着单卡越弱、系统越难协同、每一分算力被浪费得越多。

真正值得琢磨的,不是「国产卡能不能训出万亿模型」——LongCat-2.0 已经把这个问句划掉了——而是这五万张卡到底在替什么买单。

五万张卡替什么买单

LongCat-2.0 的技术选择本身就透着「省着用」的克制。它预训练吃了 30 万亿 Token,采用稀疏注意力加动态激活,推理时平均只激活约 480 亿参数——1.6 万亿的总盘子,真正参与每次计算的仅约 3%[1]。这套混合专家(MoE)架构的意义,一半是模型能力,另一半是硬压显存占用和推理成本。当每张卡的显存和带宽都比对手紧张,你就得在架构层面精打细算,把「省」刻进设计里。

它原生支持 100 万 Token 的超长上下文,主攻智能体和代码场景,已经能接进 Claude Code、OpenClaw 这类开发工具,早前还以「Owl Alpha」的代号在 OpenRouter 上灰度过一阵[1]。这是一个奔着实用去的模型,不是刷榜的花架子。

美团从 2023 年就开始推国产算力适配,近期还专门成立了「AI Transformation」部门[1]。一家外卖公司为什么要啃这块最硬的骨头?答案藏在它对万卡集群难点的描述里:核心壁垒不在算力本身,而在节点协同与系统纠错——算子适配、通信库的异常处理、流水线调度[1]。这句话是整件事的题眼。五万张卡真正的对手,不是「算得快不快」,而是「几万张卡能不能像一台机器一样不出错地协同几十天」。

英伟达十几年砸下的护城河,可以拆成四道墙。第一道是单卡算力——那一层最扎眼,却也是国产追得最紧、出口管制最想卡却最难彻底卡死的一道。真正难越的,是它身后那三道更隐蔽的墙:HBM、互联、软件。

第一道墙:单卡算力,反而是最不该焦虑的一层

最容易被误读成「差距」的,是单卡 FLOPS 这道墙。

据 SemiAnalysis 等机构估算,华为昇腾 910C 的 FP16 单卡算力约 800 TFLOPS,大约是英伟达 H100 的八成;内存带宽约 3.2 TB/s,已经贴到 H100 约 3.35 TB/s 的水平[4]。代价是芯片逻辑面积比 H100 大出约六成[4]——用更大的硅、双芯粒封装,去堆出接近的性能,效率不如对手,但纸面数字追得很近。

这就是关键的第一层认知翻转:单卡性能这道墙,国产其实已经爬得七七八八。出口管制卡的正是这一层——2023 年 10 月,美国叫停 H800、A800,连 H100、A100、L40S 一并纳入限制[8]。可硅片这东西,一旦落地就难以追缴,走私、囤货、灰色渠道层出不穷;管制能拖慢速度,却封不死一颗芯片的物理性能被复制出来。910C 就是证据。

真正卡得住脖子的,是芯片背后那两样看不见的东西。

第二道墙:HBM,一道靠三家公司焊死的门

第一样是 HBM——高带宽内存。

大模型训练是不折不扣的「喂料」游戏:GPU 算得再快,数据喂不上来也是空转。HBM 就是那根喂料管,它把内存像盖楼一样垂直堆叠、贴着芯片封装,带宽甩开普通内存几十倍。910C 能把带宽做到 3.2 TB/s,靠的正是 8 颗 HBM 堆叠[4]。没有 HBM,再大的硅片都是饿着肚子的巨人。

而全世界能量产先进 HBM 的,只有三家:SK 海力士、三星、美光[5]。这是比光刻机更窄的一个瓶颈——EUV 光刻机至少还有 ASML 一家在卖,HBM 却是三家寡头把持的封闭俱乐部。

2024 年 12 月,美国把管制的手直接伸到了这里:新规限制 HBM 对华出口,且不论产地——美光在本土造的算、海力士和三星在海外造的也算,等于把这条喂料管从三个源头一齐拧紧[5][7]。CSIS 把这一手形容为卡在「咽喉」上的管制[6]。据 CNN 报道,规则落地前那个月,华为等中国公司抢囤了约 700 万颗三星 HBM,货值估计超过 10 亿美元[5]——抢在门关上前把仓库塞满,这个动作本身就说明这道门有多硬。

昇腾能追上 H100 的带宽,一部分正是踩在这批囤货上。可囤货会用完,先进 HBM 的自主量产又被同一批管制卡着上游设备。这道墙的可怕之处不在当下,而在存量耗尽之后——它决定的不是「今天能不能训」,而是「明年、后年还能不能持续地训」。

第三道墙:让五万张卡变成「一台机器」

第二样看不见的东西,是互联。

单卡再强,几万张卡各自为战也是一盘散沙。训练万亿模型时,参数被切碎散在成千上万张卡里,每算一步都要海量地交换梯度、同步权重——卡与卡之间的通信带宽,往往才是真正的天花板。英伟达的答案是 NVLink 和 NVSwitch,把一整机柜的 GPU 用私有高速总线焊成一个逻辑整体,对外像一颗巨型芯片。它最新一代 GB200 NVL72 就是把 72 颗 GPU 拧成一个超节点。

华为绕这道墙的办法,是 CloudMatrix 384 超节点:用 384 颗昇腾 910C 拼成一个系统[4]。数字很说明问题——英伟达用 72 颗做一个超节点,华为要用 384 颗,五倍还多。单卡弱,就用更密的互联和更多的芯片去补;SemiAnalysis 的评估是,靠这种「以量换质」的堆法,CloudMatrix 在系统级总算力上能压过 GB200 NVL72[4]

代价写在电表上。五倍数量的芯片意味着数倍的功耗、数倍的机房、数倍的散热与运维。系统级追平了性能,却是用能耗和资本开支这两笔更贵的成本换来的。这恰是「能训通」与「能追平」之间那条看不见的沟:跑通了,但跑得远不如对手划算。

而把这么多卡真正拧成一台机器,还需要通信库不出错、流水线调度不卡壳、任何一张卡挂掉时系统能自愈——这正是美团反复强调的节点协同与系统纠错[1]。五万张卡连续跑几十天,只要纠错机制不够稳,一次崩溃就可能让几天的算力打水漂。这不是芯片问题,是系统工程问题,也是最吃人力、最难速成的一道功夫。

第四道墙:软件生态,最慢的那堵墙

最后一道墙,也是最容易被硬件参数掩盖的一道——软件。

英伟达真正的护城河叫 CUDA,一套铺了十几年的开发者生态。全世界的深度学习框架、算子库、调试工具都长在它上面,开发者的肌肉记忆也长在它上面。华为对应的是 CANN 加 MindSpore,昇腾要好用,就得让这套自己的软件栈把 CUDA 的活儿一件件补齐。

这道墙的高度,虎嗅那篇讲昆仑芯 IPO 的报道点得很透:AI 芯片的竞争维度,除了算力,还有集群稳定性、软件生态和开发者使用习惯;客户买了卡之后要完成模型迁移、算子适配、集群部署,工具越成熟,迁移成本越低、粘性越强[2]。报道直言,昆仑芯背靠百度虽有场景,但在软件生态、客户覆盖和外部开发者影响力上,与华为的全栈体系仍有距离[2]。连国产阵营内部,差距都先体现在软件而非硅片上。

软件生态是这四道墙里最慢的一堵。硅片可以靠堆料逼近,互联可以靠数量补足,唯独十几年的开发者习惯和算子积累没有捷径——它不是钱能一次性买断的,是时间的函数。每一次算子没适配、每一处效率折损,都在悄悄抬高国产路线那本已不低的账单。

谁在真金白银地爬这四道墙

把镜头拉远,市场数据能看清这场爬墙战的真实进度。

据 IDC,2025 年中国 AI 加速卡市场,国产厂商合计出货约 165 万张,占比升到 41%[2]。这个 41% 是硬进展——两三年前还是英伟达一家独大的市场,如今国产已经拿下四成。其中华为昇腾约 81.2 万张,独占国产出货的近半壁;阿里平头哥约 26.5 万张居次;昆仑芯与寒武纪各约 11.6 万张,并列第三[2]

昇腾一家的出货,比其余三家加起来还多——这解释了为什么万卡级的国产集群,算力底座大概率落在昇腾身上。全栈自研(芯片、互联、软件一手包办)在系统工程上的优势,正在变成出货量上的领先。

昆仑芯的 IPO 剧本,则把这门生意的成色照得透亮:目标估值 500 亿美元,比母公司百度约 370 亿美元的市值还高;认购还附带条件——要先采购认购金额 3 到 7 倍的芯片;产品路线图排到 M100 主打 2026 年推理、M300 主打 2027 年训练[2]。「先买芯片才让你认购」这种绑定,说明国产芯片的需求眼下更多靠生态内的战略采购托着,而非纯粹的市场竞价。这是一个被举国意志和产业政策浇灌起来的市场,不是一个自然生长的市场。

至于最上游的制程,华为方面宣称,在出口管制的约束下,计划到 2031 年追平台积电最先进制程——这是华为的说法,据 SemiWiki 的评论转述,属预期而非既成事实[3]。五年的时间表本身,就是差距还在的诚实注脚。

「闭环」是两个词

回到那个满天飞的判断:LongCat-2.0 是不是证明国产算力「闭环」了?

答案取决于「闭环」是哪个意思。

如果指战略意义——不被卡脖子、封锁之下还能活下去、万亿模型该训还能训——那么是的,这个环闭上了。英伟达 H20 在 2025 年 4 月一度被收紧到需逐单许可、年中才附条件恢复;更先进的 H200 直到 2026 年初才获批对华销售,且要逐单审批、并向美国政府上缴高达 25% 的销售分成[9][10][11]。供应随政治风向摇摆的时候,「自己能训」本身就是一种战略保险。LongCat-2.0 兑现的正是这份保险:卡不死、能活。

但如果指经济意义——和英伟达路线一样划算、一样省电、一样好用——那么这个环远没闭上,甚至看不清哪天能闭。五万张卡对几千张卡,384 颗对 72 颗,八成的单卡算力,未量产的先进 HBM,还在补课的软件栈——每一项背后都是更高的芯片数量、电力、资本开支和人力。国产算力是用「堆数量、堆电、堆系统工程、堆人力」这套高总拥有成本的打法,绕过了单点性能的封锁,换来一次「能跑通」。

这才是那五万张卡真正买下的东西:不是一张追平英伟达的入场券,而是一份「就算被断供也不会停摆」的底气。诚实地说,国产算力确实撑起了万亿模型——但「撑起」二字,掩盖了它撑得多吃力、多贵、多依赖举国式的堆料去补短板。

差距没有消失,只是换了坐标。它从「能不能」变成了「多贵、多久能可持续」。前一个问题,LongCat-2.0 用五万张卡回答了;后一个问题的答案,藏在 HBM 的存量能撑多久、软件生态多快补齐、以及那本越堆越厚的电费与资本开支账单里。对下游的 AI 基建和模型层而言,真正该盯的也不再是「国产能不能训模型」这个已经过时的问句,而是国产算力的单位成本曲线——它往下走的斜率,才决定这场爬墙战最终是场胜仗,还是一场旷日持久、烧钱不止的消耗战。