推理芯片分化加速，GPU不再是AI算力唯一答案

未尽研究指出，推理芯片正以更低成本与延迟挑战通用GPU，AI算力按任务分工趋势明显。

“未尽研究”在一篇评论中提出，AI算力领域的一句老话正在被改写：过去是“真正的硬汉要有自己的晶圆厂”，如今则变成“真正的大模型公司，迟早都要掌握自己的算力命运”。文章认为，谁能以更低的成本、更低的延迟和更高的稳定性来生产token，谁就能在AI商业竞争中建立起真正可持续的模式。

通用GPU曾是AI算力的唯一答案，凭借其强大的通用性和成熟的软件生态主导市场。但进入推理和智能体时代后，其弱点开始显现：它未必是成本最低、延迟最短的推理机器，同时围绕单一GPU集群构建的庞大系统，越来越难以适应AI应用对灵活、分布式、低延迟的需求。因此，AI算力正经历一场按任务重新分工的变革，训练、预填充、解码、长上下文处理等环节不再天然绑定同一种芯片。

文章重点梳理了五种“反GPU”的芯片架构路径，它们的共同目标都是突破传统GPU的瓶颈。

Cerebras 采用极端的晶圆级计算，其 WSE-3 处理器将整片晶圆做成一个拥有 4万亿晶体管和 90万个AI优化核心的巨型芯片，试图把跨芯片通信内部化，从而大幅降低解码阶段的延迟。OpenAI 已宣布与其合作，部署 750MW 的超低延迟推理算力，这被视为对该路线的正式验证。

Groq 的LPU架构则追求确定性数据流处理，用极高带宽的SRAM来加速token生成。值得注意的是，英伟达并未将其视为GPU的替代品，而是通过收购将其技术整合进 Vera Rubin 平台，推出 NVIDIA Groq 3 LPX，与Rubin GPU组成异构系统，以同时满足长上下文、高吞吐和低延迟的需求。文章评论称，这反映出英伟达对未来的判断：推理不再是单一GPU架构的天下，而是GPU+LPU+CPU+网络+存储的系统级组合。

谷歌的第八代TPU首次明确将训练和推理芯片分化，推出 TPU 8t 用于大规模预训练，TPU 8i 则面向推理服务。TPU 8i通过增加3倍的片上SRAM、新增集体加速引擎以及优化网络拓扑来降低尾延迟，其设计思路与Groq、Cerebras等不谋而合。

此外，还有更早期的探索者。Fractile 试图通过将内存与计算物理交织，实现存内推理，宣称能让前沿模型推理速度提升 25倍、成本降至 1/10，但产品预计要到 2027年 左右才具备商业可用性。SambaNova 的可重构数据流单元RDU则强调将AI模型图直接映射到处理器数据流路径上，其与英特尔的合作蓝图尤为典型：用GPU做预填充，用RDU做高吞吐解码，用 Xeon 6 CPU做主机和执行，这几乎成为推理架构分化的教科书案例。

d-Matrix 和 Etched 则分别从数字存内计算和为Transformer 定制芯片的角度切入。d-Matrix的 Corsair 平台宣称可在单服务器上实现 60,000 tokens/s 的推理速度。Etched则声称其芯片能在低于大多数AI芯片一半的电压下工作，并手握 10亿美元订单，计划于今年夏季交付首台机架。

文章总结，这些五花八门的芯片路径背后有清晰的共同点：它们都在围绕“内存墙”做文章，不再将 FLOPS 作为唯一指标，转而关注首token延迟、单位token成本、单位能耗产出等更实际的推理指标。它们都在推动计算架构的“数据流化”，并成为异构算力系统的核心部件。这一切的背后，是AI企业面对巨大的推理成本压力，开始集体寻求摆脱对昂贵且供应紧缺的通用GPU的过度依赖，将最稀缺的资源留给最合适的任务，以构建更健康的token经济。

推理芯片分化加速，GPU不再是AI算力唯一答案

延伸阅读

相关深度报道

相关每日新闻