推理芯片分化加速，GPU不再是AI算力唯一答案

未盡研究指出，推理芯片正以更低成本與延遲挑戰通用GPU，AI算力按任務分工趨勢明顯。

“未盡研究”在一篇評論中提出，AI算力領域的一句老話正在被改寫：過去是“真正的硬漢要有自己的晶圓廠”，如今則變成“真正的大模型公司，遲早都要掌握自己的算力命運”。文章認為，誰能以更低的成本、更低的延遲和更高的穩定性來生產token，誰就能在AI商業競爭中建立起真正可持續的模式。

通用GPU曾是AI算力的唯一答案，憑藉其強大的通用性和成熟的軟件生態主導市場。但進入推理和智能體時代後，其弱點開始顯現：它未必是成本最低、延遲最短的推理機器，同時圍繞單一GPU集群構建的龐大系統，越來越難以適應AI應用對靈活、分佈式、低延遲的需求。因此，AI算力正經歷一場按任務重新分工的變革，訓練、預填充、解碼、長上下文處理等環節不再天然綁定同一種芯片。

文章重點梳理了五種“反GPU”的芯片架構路徑，它們的共同目標都是突破傳統GPU的瓶頸。

Cerebras 採用極端的晶圓級計算，其 WSE-3 處理器將整片晶圓做成一個擁有 4萬億晶體管和 90萬個AI優化核心的巨型芯片，試圖把跨芯片通信內部化，從而大幅降低解碼階段的延遲。OpenAI 已宣佈與其合作，部署 750MW 的超低延遲推理算力，這被視為對該路線的正式驗證。

Groq 的LPU架構則追求確定性數據流處理，用極高帶寬的SRAM來加速token生成。值得注意的是，英偉達並未將其視為GPU的替代品，而是通過收購將其技術整合進 Vera Rubin 平臺，推出 NVIDIA Groq 3 LPX，與Rubin GPU組成異構系統，以同時滿足長上下文、高吞吐和低延遲的需求。文章評論稱，這反映出英偉達對未來的判斷：推理不再是單一GPU架構的天下，而是GPU+LPU+CPU+網絡+存儲的系統級組合。

谷歌的第八代TPU首次明確將訓練和推理芯片分化，推出 TPU 8t 用於大規模預訓練，TPU 8i 則面向推理服務。TPU 8i通過增加3倍的片上SRAM、新增集體加速引擎以及優化網絡拓撲來降低尾延遲，其設計思路與Groq、Cerebras等不謀而合。

此外，還有更早期的探索者。Fractile 試圖通過將內存與計算物理交織，實現存內推理，宣稱能讓前沿模型推理速度提升 25倍、成本降至 1/10，但產品預計要到 2027年 左右才具備商業可用性。SambaNova 的可重構數據流單元RDU則強調將AI模型圖直接映射到處理器數據流路徑上，其與英特爾的合作藍圖尤為典型：用GPU做預填充，用RDU做高吞吐解碼，用 Xeon 6 CPU做主機和執行，這幾乎成為推理架構分化的教科書案例。

d-Matrix 和 Etched 則分別從數字存內計算和為Transformer 定製芯片的角度切入。d-Matrix的 Corsair 平臺宣稱可在單服務器上實現 60,000 tokens/s 的推理速度。Etched則聲稱其芯片能在低於大多數AI芯片一半的電壓下工作，並手握 10億美元訂單，計劃於今年夏季交付首臺機架。

文章總結，這些五花八門的芯片路徑背後有清晰的共同點：它們都在圍繞“內存牆”做文章，不再將 FLOPS 作為唯一指標，轉而關注首token延遲、單位token成本、單位能耗產出等更實際的推理指標。它們都在推動計算架構的“數據流化”，併成為異構算力系統的核心部件。這一切的背後，是AI企業面對巨大的推理成本壓力，開始集體尋求擺脫對昂貴且供應緊缺的通用GPU的過度依賴，將最稀缺的資源留給最合適的任務，以構建更健康的token經濟。

推理芯片分化加速，GPU不再是AI算力唯一答案

延伸閱讀

相關深度報道

相關每日新聞