自去年底以来,摩尔线程沐曦股份壁仞科技天数智芯等一批国产GPU厂商在二级市场掀起了一轮资本热浪,吸引了大量投资者的目光。然而,在这波财富盛宴的喧嚣之下,一条关于算力结构的暗线正变得愈发清晰,其引发的产业难题也日益迫切。

过去几年,国产AI芯片的突破主要集中在相对安全且处于算力金字塔边缘的推理侧。一个典型的案例是,近期中国最大的AI应用终端豆包计划大规模采购天数智芯5万块芯片,专门用于处理高频推理运算任务。这显示出国产芯片在模型部署和应用层面已具备一定的替代能力。

但在算力金字塔的顶端——AI训练领域,情况则截然不同。训练芯片需要支撑十亿、万亿乃至十万亿级参数的模型进行海量矩阵运算和参数调整,对计算能力、高能效比、高速带宽和万卡级集群稳定性有着极高要求。目前,这一核心地带仍被英伟达A100、H100、H200以及AMD的MI300系列等海外高端产品牢牢掌控,国产芯片目前只能参与一些边缘辅助任务。

这种结构性缺陷直接反映在中美大模型的差距上。在大模型Scaling Law规律驱动下,模型参数越大,算力需求呈线性甚至指数级增长。美国科技巨头正以惊人的规模扩张算力基础设施。仅Meta一家就计划到2026年底部署超过120万张高端GPU,年投入超1450亿美元。据测算,谷歌拥有的AI总算力已相当于500万块英伟达H100,一家企业就占到了全球总量的四分之一。亚马逊、微软、Alphabet和Meta四家公司今年的资本开支合计高达7250亿美元,同比猛增77%

相比之下,由于芯片出口管制,国内可用的高端芯片数量仅为美国的约八分之一。根据中国信息通信研究院的测算,截至2025年初,美国算力规模为2400 EFLOPS,中国为1053 EFLOPS,差距超过两倍。上述四家美国科技巨头任何一家的在手算力,都已超过中国所有AI企业的总和。这种碾压式的算力优势,使得美国企业可以在一年内完成十几轮大模型迭代实验。马斯克旗下的xAI甚至拥有号称全球“首个GW级AI集群”的Colossus 2,正在同时训练包括6万亿10万亿参数在内的多个模型,这种“暴力美学”完全建立在极度充裕的算力基础之上。

算力基座的巨大落差,直接转化为模型能力的代际差距。美国最前沿大模型已进入十万亿参数时代,Anthropic最强大的Mythos已达10万亿参数,训练耗费高达100亿美元。而中国最强模型DeepSeek V4 Pro总参数量为1.6万亿,与美国前沿相差约6倍。李开复近期在接受采访时指出,以Anthropic的Claude Fable 5等美国顶尖模型为标杆,美国目前领先中国约15个月。由于大模型的预训练决定了其能力上限,而预训练的决定因子正是高端算力芯片,因此算力差距构成了中美模型差距的根源。

在全球GPU服务器市场,英伟达凭借其先发优势和强大的CUDA软件生态,长期占据垄断地位。集邦咨询数据显示,2026年第一季度,英伟达一家吃掉了全球68%的市场份额,而国产GPU厂商整体占比不足4%CUDA生态经过十余年深耕,拥有超400万开发者、数十万开源模型和全品类第三方工具链,全球95%以上的AI模型基于该生态开发,这构成了国产GPU最难逾越的软性壁垒。

不过,国产替代的步伐并未停歇。在政策支持下,华为昇腾910海光DCU深算2号寒武纪思元370/590以及摩尔线程、沐曦等企业的产品相继涌现。其中昇腾910B的算力已可媲美英伟达A100芯片。在推理与边缘场景,国产GPU与英伟达中端产品的差距已缩小至15%-20%,具备了一定的替代可行性。更值得关注的是生态适配上的突破:今年1月,智谱联合华为,基于昇腾Atlas 800T A2设备与昇思MindSpore框架,完成了首个依托国产芯片实现全程训练的SOTA多模态模型;摩尔线程也与北京智源人工智能研究院合作,基于MTT S5000智算集群完成了具身大脑模型的全程训练,首次验证了国产算力集群在具身智能大模型训练中的可用性。

整体来看,在海外先进芯片进口受限的背景下,中国AI产业正尝试“中西结合”两条腿走路,同时大力扶持国内算力芯片。国产GPU已从推理侧的“单点突破”迈向训练侧的“逐步适配”,这本身就是一种长足进步。但正如中国工程院院士郑纬民所指出的,国产AI芯片的核心问题在于生态不够完善,如果生态能做好,即使性能只有别人的60%也会有人用。在这场关乎国运的AI对弈中,中美两国既是对手,也各自拥有对方所需的技术、市场和资源,而算力基座的追赶,注定是一场考验耐心与战略定力的长跑。