国产GPU资本热潮下的算力暗线：训练侧差距仍显著

国产AI芯片集中于推理侧，豆包计划采购5万块天数智芯芯片用于推理。

自去年底以来，摩尔线程、沐曦股份、壁仞科技、天数智芯等一批国产GPU厂商在二级市场掀起了一轮资本热浪，吸引了大量投资者的目光。然而，在这波财富盛宴的喧嚣之下，一条关于算力结构的暗线正变得愈发清晰，其引发的产业难题也日益迫切。

过去几年，国产AI芯片的突破主要集中在相对安全且处于算力金字塔边缘的推理侧。一个典型的案例是，近期中国最大的AI应用终端豆包计划大规模采购天数智芯的5万块芯片，专门用于处理高频推理运算任务。这显示出国产芯片在模型部署和应用层面已具备一定的替代能力。

但在算力金字塔的顶端——AI训练领域，情况则截然不同。训练芯片需要支撑十亿、万亿乃至十万亿级参数的模型进行海量矩阵运算和参数调整，对计算能力、高能效比、高速带宽和万卡级集群稳定性有着极高要求。目前，这一核心地带仍被英伟达A100、H100、H200以及AMD的MI300系列等海外高端产品牢牢掌控，国产芯片目前只能参与一些边缘辅助任务。

这种结构性缺陷直接反映在中美大模型的差距上。在大模型Scaling Law规律驱动下，模型参数越大，算力需求呈线性甚至指数级增长。美国科技巨头正以惊人的规模扩张算力基础设施。仅Meta一家就计划到2026年底部署超过120万张高端GPU，年投入超1450亿美元。据测算，谷歌拥有的AI总算力已相当于500万块英伟达H100，一家企业就占到了全球总量的四分之一。亚马逊、微软、Alphabet和Meta四家公司今年的资本开支合计高达7250亿美元，同比猛增77%。

相比之下，由于芯片出口管制，国内可用的高端芯片数量仅为美国的约八分之一。根据中国信息通信研究院的测算，截至2025年初，美国算力规模为2400 EFLOPS，中国为1053 EFLOPS，差距超过两倍。上述四家美国科技巨头任何一家的在手算力，都已超过中国所有AI企业的总和。这种碾压式的算力优势，使得美国企业可以在一年内完成十几轮大模型迭代实验。马斯克旗下的xAI甚至拥有号称全球“首个GW级AI集群”的Colossus 2，正在同时训练包括6万亿和10万亿参数在内的多个模型，这种“暴力美学”完全建立在极度充裕的算力基础之上。

算力基座的巨大落差，直接转化为模型能力的代际差距。美国最前沿大模型已进入十万亿参数时代，Anthropic最强大的Mythos已达10万亿参数，训练耗费高达100亿美元。而中国最强模型DeepSeek V4 Pro总参数量为1.6万亿，与美国前沿相差约6倍。李开复近期在接受采访时指出，以Anthropic的Claude Fable 5等美国顶尖模型为标杆，美国目前领先中国约15个月。由于大模型的预训练决定了其能力上限，而预训练的决定因子正是高端算力芯片，因此算力差距构成了中美模型差距的根源。

在全球GPU服务器市场，英伟达凭借其先发优势和强大的CUDA软件生态，长期占据垄断地位。集邦咨询数据显示，2026年第一季度，英伟达一家吃掉了全球68%的市场份额，而国产GPU厂商整体占比不足4%。CUDA生态经过十余年深耕，拥有超400万开发者、数十万开源模型和全品类第三方工具链，全球95%以上的AI模型基于该生态开发，这构成了国产GPU最难逾越的软性壁垒。

不过，国产替代的步伐并未停歇。在政策支持下，华为昇腾910、海光DCU深算2号、寒武纪思元370/590以及摩尔线程、沐曦等企业的产品相继涌现。其中昇腾910B的算力已可媲美英伟达A100芯片。在推理与边缘场景，国产GPU与英伟达中端产品的差距已缩小至15%-20%，具备了一定的替代可行性。更值得关注的是生态适配上的突破：今年1月，智谱联合华为，基于昇腾Atlas 800T A2设备与昇思MindSpore框架，完成了首个依托国产芯片实现全程训练的SOTA多模态模型；摩尔线程也与北京智源人工智能研究院合作，基于MTT S5000智算集群完成了具身大脑模型的全程训练，首次验证了国产算力集群在具身智能大模型训练中的可用性。

整体来看，在海外先进芯片进口受限的背景下，中国AI产业正尝试“中西结合”两条腿走路，同时大力扶持国内算力芯片。国产GPU已从推理侧的“单点突破”迈向训练侧的“逐步适配”，这本身就是一种长足进步。但正如中国工程院院士郑纬民所指出的，国产AI芯片的核心问题在于生态不够完善，如果生态能做好，即使性能只有别人的60%也会有人用。在这场关乎国运的AI对弈中，中美两国既是对手，也各自拥有对方所需的技术、市场和资源，而算力基座的追赶，注定是一场考验耐心与战略定力的长跑。

国产GPU资本热潮下的算力暗线：训练侧差距仍显著

延伸阅读

相关深度报道

相关每日新闻