智算中心竞争逻辑转向“Token 工厂”：从堆 GPU 到榨 Token

AI基础设施竞争焦点从GPU数量转向Token吞吐量效率，最大化单位GPU和功耗产出Token成为新目标。

AI 基础设施的竞争逻辑正在发生根本性转变。长江证券最新研报提出，行业正从“堆 GPU”的资源竞赛，迈入以 Token 吞吐量为核心产出指标的效率竞争时代。这一转变的核心载体被定义为 “Token 工厂”——一种将电力、GPU、网络和模型高效转化为持续 Token 流，并最终兑现为智能服务收入的新一代 AI 基础设施。

过去，在 scaling law 的驱动下，智算中心的北极星指标是尽可能多地堆砌 GPU。谁拥有最多的 GPU，谁似乎就掌握了行业话语权。但市场逐渐意识到，GPU 只是初始生产资料之一，最终市场需要的是具备生产力的 Token。Token 的生产还需要电力、网络、调度能力和推理优化等多维能力的配合。单纯拥有 GPU 数量而在其他环节存在短板，会导致同等量级的资源产生巨大浪费。

研报指出，Token 工厂的收入公式为 Token 调用量乘以 Token 定价，这使得其运营目标从简单的算力提供，转变为最大化单位 GPU 和单位功耗所产生的 Token 数量。竞争焦点因此从“拥有多少 GPU”转向“如何让 GPU 生产更多 Token”。在这一过程中，决定资源转化效率的关键不再是硬件本身，而是覆盖调度平台、推理引擎、编译器和模型优化的 AI 系统软件栈。

调度层面的优化尤为关键。与传统云主要优化 CPU 利用率不同，AI 云面临 GPU 碎片化、KV Cache 碎片化和 Gang Scheduling 等独特挑战。报告列举了多个行业实践：英伟达通过 DCGM 系统解决 GPU 集群“看不见”的问题，为调度提供数据基础；以 CoreWeave 为代表的 NeoCloud 将集群效率作为核心竞争力，通过拓扑感知调度和自动节点管理等系统级优化，显著提升大规模训练任务的 MFU；阿里巴巴与北大合作提出的 Aegaeon 系统，则将调度粒度从请求级细化到 Token 级，通过 token 级别的自动扩缩容技术，使有效吞吐量提升 1.5 到 9 倍，大幅减少了所需 GPU 数量。

另一大效率提升路径是 芯模协同优化。随着大模型部署进入规模化阶段，单纯依靠硬件升级已难持续提升系统效率，芯片架构、编译器、推理框架与模型结构的联合设计成为新的性能突破口。行业形成了大厂自研芯片与模型联合设计、以及模型厂商与芯片厂商深度生态绑定两条主要路径。例如，阿里云在 2026 年峰会上发布了基于自研 AI 芯片 真武 M890 的磐久 AL128 超节点服务器，并升级百炼推理平台，通过上下文缓存、吞吐弹性调度和 Agentic RL 等技术，实现资源高效利用。同时，DeepSeek-V4 预览版发布当日，即实现了与华为昇腾、寒武纪等 8 家国产芯片的 Day0 同步适配，显示出国产芯模协同的加速趋势。

从产业格局看，Token 工厂的出现标志着智算产业正式从资源竞争进入效率竞争阶段。其产业链地位介于单纯算力提供方与下游实体企业之间，与云计算相近。未来，随着 GPU 硬件逐渐标准化，AI 基础设施的竞争优势将越来越多地来自系统软件能力。无论是海外的 NeoCloud、云计算厂商，还是模型与芯片厂商，都将围绕调度平台、推理引擎和芯模协同持续构建差异化竞争力。对于投资者而言，这一趋势意味着对 AI 基础设施的评估框架需要从单纯的硬件资产规模，转向对软件生态、调度效率与单位资源产出能力的综合考量。

智算中心竞争逻辑转向“Token 工厂”：从堆 GPU 到榨 Token

延伸阅读

相关深度报道

相关每日新闻