在由英偉達GPU主導的AI訓練熱潮之後,產業正步入一個更考驗響應速度與成本效率的推理時代。HPCwire的一篇報道指出,一種基於靜態隨機存取存儲器(SRAM)的新型芯片架構正悄然走向前臺,試圖打破長期困擾AI推理的“GPU內存牆”。
所謂“內存牆”,指的是GPU在執行推理時,能夠緩存的歷史計算鍵值對(KV緩存)規模受到嚴重製約。這直接導致上下文窗口受限、響應延遲增加或併發用戶數下降,最終損害終端體驗。傳統上,GPU依賴的高帶寬內存(HBM)雖然容量可觀,但因其位於芯片外部,總內存帶寬被限制在每秒1.2TB(HBM3)到2TB(HBM4)的水平。相比之下,直接集成在芯片上的SRAM可提供每秒100TB至150TB的驚人帶寬,儘管成本更高,卻為破解KV緩存難題提供了“暴力”解法。
這一技術路線的潛力已吸引多家公司重注投入。英偉達在去年12月以200億美元收購了專注於語言處理單元(LPU)的Groq,後者正是將向量與矩陣計算單元直接構建在搭載大量SRAM的芯片上。今年3月的GTC大會上,英偉達迅速推出了基於該技術的Groq 3 LPX機架產品,顯示出其捍衛推理市場的決心。
與此同時,位於加州聖克拉拉的初創公司d-Matrix也選擇了類似路徑。其基於數字存內計算(DCIM)架構的Corsair加速卡,採用3D堆疊的芯粒形態,集成了256MB的SRAM,單卡即可通過PCIe Gen 5接口提供每秒150TB的內存帶寬。d-Matrix昨日宣佈,Corsair已全面投產並向優先客戶批量發貨。該加速卡在600瓦熱設計功耗(TDP)內可提供高達2400萬億次8位密集計算能力,並可在標準風冷服務器機架中部署,由臺積電和Alchip基於臺積電N6工藝節點製造。公司創始人兼CEO Sid Sheth直言,Corsair專為“AI推理時代”而生,瞄準的是智能體AI、交互式編碼和實時語音助手等對延遲極度敏感的應用。
另一家將SRAM路線推向極致的是Cerebras Systems。其晶圓級引擎WSE-3堪稱芯片中的巨獸,在一塊餐盤大小的硅晶圓上集成了4萬億個晶體管、44GB片上SRAM以及近100萬個AI計算核心。配合最高1PB的外部內存,該芯片能夠訓練參數規模超過24萬億的全球最大AI模型。Cerebras三週前剛剛登陸納斯達克,以每股185美元的價格募資55.5億美元,創下今年迄今最大IPO紀錄,當前公司估值高達560億美元,成為SRAM芯片市場的風向標。
值得關注的還有來自斯坦福大學的應用AI研究初創公司Gimlet Labs。該公司正在構建一個“多硅推理雲”,通過在硬件與工作負載之間建立抽象層,為客戶消除硬件選型煩惱。其聯合創始人兼CEO Zain Asgar在一篇博客中指出,AI推理的預填充與解碼階段對處理器和內存的需求截然不同,而解碼階段的自迴歸特性與高內存強度高度匹配,這正是SRAM中心架構的優勢所在。Gimlet近期完成了8000萬美元的A輪融資,其雲端已同時運行著SRAM加速器與傳統GPU。
從產業鏈視角看,SRAM芯片的興起並非要完全替代GPU,而是在推理這一特定且快速膨脹的市場中,提供一種更極致的性能選項。隨著頂級實驗室日益加大對推理速度與吞吐量的投入,圍繞內存帶寬展開的技術路線競爭,或將重新劃分AI芯片市場的版圖,並對上游製造、封裝以及下游雲服務定價模式產生深遠影響。