是什么

AI 推理芯片(Inference Chip)是专为大模型 推理 环节优化的芯片。所谓推理,指模型训练完成、上线后,对用户的每一次提问实时生成回答的过程——与「造模型」的训练相对,是「用模型」。推理对硬件的诉求和训练不同:训练追求峰值算力与显存带宽,推理则更看重 低时延、低成本与能效。同一块高端 GPU 两件事都能做,但由于推理规模会随用户量不断放大,业界催生出一批专为推理优化的芯片与架构。

为什么重要

随着大模型从「训练竞赛」转向「大规模落地」,推理的总算力需求预计将超过训练——因为每天有海量用户在调用模型服务。谁能把推理做得更便宜、更快、更省电,谁就掌握了 AI 商业化的成本命门。这也解释了为何在英伟达 GPU 主导训练市场之外,推理侧涌现出众多挑战者:从 AMD 的加速卡、博通与迈威尔的定制 ASIC,到 Cerebras、Groq 等主打极低时延的专用架构,再到云厂商自研的推理芯片。推理芯片因此成为芯片层竞争格局最可能被改写的一块。

与「五层蛋糕」的关系

AI 推理芯片处在「五层蛋糕」的 芯片 层,与 定制 AI 芯片 高度相关——很多推理芯片正是以 ASIC 形式为特定场景定制的。它向下消耗 能源 与制造产能,向上直接决定 模型 层对外服务的单位成本。可以说,训练芯片决定「模型能有多强」,推理芯片决定「模型用起来有多贵」。