是什麼

AI 推理芯片(Inference Chip)是專為大模型 推理 環節優化的芯片。所謂推理,指模型訓練完成、上線後,對用戶的每一次提問實時生成回答的過程——與「造模型」的訓練相對,是「用模型」。推理對硬件的訴求和訓練不同:訓練追求峰值算力與顯存帶寬,推理則更看重 低時延、低成本與能效。同一塊高端 GPU 兩件事都能做,但由於推理規模會隨用戶量不斷放大,業界催生出一批專為推理優化的芯片與架構。

為什麼重要

隨著大模型從「訓練競賽」轉向「大規模落地」,推理的總算力需求預計將超過訓練——因為每天有海量用戶在調用模型服務。誰能把推理做得更便宜、更快、更省電,誰就掌握了 AI 商業化的成本命門。這也解釋了為何在英偉達 GPU 主導訓練市場之外,推理側湧現出眾多挑戰者:從 AMD 的加速卡、博通與邁威爾的定製 ASIC,到 Cerebras、Groq 等主打極低時延的專用架構,再到雲廠商自研的推理芯片。推理芯片因此成為芯片層競爭格局最可能被改寫的一塊。

與「五層蛋糕」的關係

AI 推理芯片處在「五層蛋糕」的 芯片 層,與 定製 AI 芯片 高度相關——很多推理芯片正是以 ASIC 形式為特定場景定製的。它向下消耗 能源 與製造產能,向上直接決定 模型 層對外服務的單位成本。可以說,訓練芯片決定「模型能有多強」,推理芯片決定「模型用起來有多貴」。