“未盡研究”在一篇評論中提出,AI算力領域的一句老話正在被改寫:過去是“真正的硬漢要有自己的晶圓廠”,如今則變成“真正的大模型公司,遲早都要掌握自己的算力命運”。文章認為,誰能以更低的成本、更低的延遲和更高的穩定性來生產token,誰就能在AI商業競爭中建立起真正可持續的模式。
通用GPU曾是AI算力的唯一答案,憑藉其強大的通用性和成熟的軟件生態主導市場。但進入推理和智能體時代後,其弱點開始顯現:它未必是成本最低、延遲最短的推理機器,同時圍繞單一GPU集群構建的龐大系統,越來越難以適應AI應用對靈活、分佈式、低延遲的需求。因此,AI算力正經歷一場按任務重新分工的變革,訓練、預填充、解碼、長上下文處理等環節不再天然綁定同一種芯片。
文章重點梳理了五種“反GPU”的芯片架構路徑,它們的共同目標都是突破傳統GPU的瓶頸。
Cerebras 採用極端的晶圓級計算,其 WSE-3 處理器將整片晶圓做成一個擁有 4萬億晶體管和 90萬個AI優化核心的巨型芯片,試圖把跨芯片通信內部化,從而大幅降低解碼階段的延遲。OpenAI 已宣佈與其合作,部署 750MW 的超低延遲推理算力,這被視為對該路線的正式驗證。
Groq 的LPU架構則追求確定性數據流處理,用極高帶寬的SRAM來加速token生成。值得注意的是,英偉達並未將其視為GPU的替代品,而是通過收購將其技術整合進 Vera Rubin 平臺,推出 NVIDIA Groq 3 LPX,與Rubin GPU組成異構系統,以同時滿足長上下文、高吞吐和低延遲的需求。文章評論稱,這反映出英偉達對未來的判斷:推理不再是單一GPU架構的天下,而是GPU+LPU+CPU+網絡+存儲的系統級組合。
谷歌的第八代TPU首次明確將訓練和推理芯片分化,推出 TPU 8t 用於大規模預訓練,TPU 8i 則面向推理服務。TPU 8i通過增加3倍的片上SRAM、新增集體加速引擎以及優化網絡拓撲來降低尾延遲,其設計思路與Groq、Cerebras等不謀而合。
此外,還有更早期的探索者。Fractile 試圖通過將內存與計算物理交織,實現存內推理,宣稱能讓前沿模型推理速度提升 25倍、成本降至 1/10,但產品預計要到 2027年 左右才具備商業可用性。SambaNova 的可重構數據流單元RDU則強調將AI模型圖直接映射到處理器數據流路徑上,其與英特爾的合作藍圖尤為典型:用GPU做預填充,用RDU做高吞吐解碼,用 Xeon 6 CPU做主機和執行,這幾乎成為推理架構分化的教科書案例。
d-Matrix 和 Etched 則分別從數字存內計算和為Transformer定製芯片的角度切入。d-Matrix的 Corsair 平臺宣稱可在單服務器上實現 60,000 tokens/s 的推理速度。Etched則聲稱其芯片能在低於大多數AI芯片一半的電壓下工作,並手握 10億美元訂單,計劃於今年夏季交付首臺機架。
文章總結,這些五花八門的芯片路徑背後有清晰的共同點:它們都在圍繞“內存牆”做文章,不再將 FLOPS 作為唯一指標,轉而關注首token延遲、單位token成本、單位能耗產出等更實際的推理指標。它們都在推動計算架構的“數據流化”,併成為異構算力系統的核心部件。這一切的背後,是AI企業面對巨大的推理成本壓力,開始集體尋求擺脫對昂貴且供應緊缺的通用GPU的過度依賴,將最稀缺的資源留給最合適的任務,以構建更健康的token經濟。