“未尽研究”在一篇评论中提出,AI算力领域的一句老话正在被改写:过去是“真正的硬汉要有自己的晶圆厂”,如今则变成“真正的大模型公司,迟早都要掌握自己的算力命运”。文章认为,谁能以更低的成本、更低的延迟和更高的稳定性来生产token,谁就能在AI商业竞争中建立起真正可持续的模式。

通用GPU曾是AI算力的唯一答案,凭借其强大的通用性和成熟的软件生态主导市场。但进入推理和智能体时代后,其弱点开始显现:它未必是成本最低、延迟最短的推理机器,同时围绕单一GPU集群构建的庞大系统,越来越难以适应AI应用对灵活、分布式、低延迟的需求。因此,AI算力正经历一场按任务重新分工的变革,训练、预填充、解码、长上下文处理等环节不再天然绑定同一种芯片。

文章重点梳理了五种“反GPU”的芯片架构路径,它们的共同目标都是突破传统GPU的瓶颈。

Cerebras 采用极端的晶圆级计算,其 WSE-3 处理器将整片晶圆做成一个拥有 4万亿晶体管90万个AI优化核心的巨型芯片,试图把跨芯片通信内部化,从而大幅降低解码阶段的延迟。OpenAI 已宣布与其合作,部署 750MW 的超低延迟推理算力,这被视为对该路线的正式验证。

Groq 的LPU架构则追求确定性数据流处理,用极高带宽的SRAM来加速token生成。值得注意的是,英伟达并未将其视为GPU的替代品,而是通过收购将其技术整合进 Vera Rubin 平台,推出 NVIDIA Groq 3 LPX,与Rubin GPU组成异构系统,以同时满足长上下文、高吞吐和低延迟的需求。文章评论称,这反映出英伟达对未来的判断:推理不再是单一GPU架构的天下,而是GPU+LPU+CPU+网络+存储的系统级组合。

谷歌的第八代TPU首次明确将训练和推理芯片分化,推出 TPU 8t 用于大规模预训练,TPU 8i 则面向推理服务。TPU 8i通过增加3倍的片上SRAM、新增集体加速引擎以及优化网络拓扑来降低尾延迟,其设计思路与Groq、Cerebras等不谋而合。

此外,还有更早期的探索者。Fractile 试图通过将内存与计算物理交织,实现存内推理,宣称能让前沿模型推理速度提升 25倍、成本降至 1/10,但产品预计要到 2027年 左右才具备商业可用性。SambaNova 的可重构数据流单元RDU则强调将AI模型图直接映射到处理器数据流路径上,其与英特尔的合作蓝图尤为典型:用GPU做预填充,用RDU做高吞吐解码,用 Xeon 6 CPU做主机和执行,这几乎成为推理架构分化的教科书案例。

d-MatrixEtched 则分别从数字存内计算和为Transformer定制芯片的角度切入。d-Matrix的 Corsair 平台宣称可在单服务器上实现 60,000 tokens/s 的推理速度。Etched则声称其芯片能在低于大多数AI芯片一半的电压下工作,并手握 10亿美元订单,计划于今年夏季交付首台机架。

文章总结,这些五花八门的芯片路径背后有清晰的共同点:它们都在围绕“内存墙”做文章,不再将 FLOPS 作为唯一指标,转而关注首token延迟、单位token成本、单位能耗产出等更实际的推理指标。它们都在推动计算架构的“数据流化”,并成为异构算力系统的核心部件。这一切的背后,是AI企业面对巨大的推理成本压力,开始集体寻求摆脱对昂贵且供应紧缺的通用GPU的过度依赖,将最稀缺的资源留给最合适的任务,以构建更健康的token经济