SRAM晶片為何在AI推理時代嶄露頭角

HPCwire報道，AI熱潮進入第二階段，基於SRAM的新型晶片正嶄露頭角。

在由輝達 GPU主導的AI訓練熱潮之後，產業正步入一個更考驗響應速度與成本效率的推理時代。HPCwire的一篇報道指出，一種基於靜態隨機存取儲存器（SRAM）的新型晶片架構正悄然走向前台，試圖打破長期困擾AI推理的“GPU記憶體牆”。

所謂“記憶體牆”，指的是GPU在執行推理時，能夠快取的歷史計算鍵值對（KV快取）規模受到嚴重製約。這直接導致上下文視窗受限、響應延遲增加或併發使用者數下降，最終損害終端體驗。傳統上，GPU依賴的高頻寬記憶體（HBM）雖然容量可觀，但因其位於晶片外部，總記憶體頻寬被限制在每秒1.2TB（HBM3）到2TB（HBM4）的水平。相比之下，直接整合在晶片上的SRAM可提供每秒100TB至150TB的驚人頻寬，儘管成本更高，卻為破解KV快取難題提供了“暴力”解法。

這一技術路線的潛力已吸引多家公司重注投入。輝達在去年12月以200億美元收購了專注於語言處理單元（LPU）的Groq，後者正是將向量與矩陣計算單元直接構建在搭載大量SRAM的晶片上。今年3月的GTC大會上，輝達迅速推出了基於該技術的Groq 3 LPX機架產品，顯示出其捍衛推理市場的決心。

與此同時，位於加州聖克拉拉的初創公司d-Matrix也選擇了類似路徑。其基於數字存內計算（DCIM）架構的Corsair加速卡，採用3D堆疊的芯粒形態，集成了256MB的SRAM，單卡即可通過PCIe Gen 5介面提供每秒150TB的記憶體頻寬。d-Matrix昨日宣佈，Corsair已全面投產並向優先客戶批次發貨。該加速卡在600瓦熱設計功耗（TDP）內可提供高達2400萬億次8位密集計算能力，並可在標準風冷伺服器機架中部署，由台積電和Alchip基於台積電N6工藝節點製造。公司創始人兼CEO Sid Sheth直言，Corsair專為“AI推理時代”而生，瞄準的是智慧體AI、互動式編碼和即時語音助手等對延遲極度敏感的應用。

另一家將SRAM路線推向極致的是Cerebras Systems。其晶圓級引擎WSE-3堪稱晶片中的巨獸，在一塊餐盤大小的矽晶圓上集成了4萬億個電晶體、44GB片上SRAM以及近100萬個AI計算核心。配合最高1PB的外部記憶體，該晶片能夠訓練引數規模超過24萬億的全球最大AI模型。Cerebras三週前剛剛登陸納斯達克，以每股185美元的價格募資55.5億美元，創下今年迄今最大IPO紀錄，當前公司估值高達560億美元，成為SRAM晶片市場的風向標。

值得關注的還有來自斯坦福大學的應用AI研究初創公司Gimlet Labs。該公司正在構建一個“多矽推理雲”，通過在硬體與工作負載之間建立抽象層，為客戶消除硬體選型煩惱。其聯合創始人兼CEO Zain Asgar在一篇部落格中指出，AI推理的預填充與解碼階段對處理器和記憶體的需求截然不同，而解碼階段的自迴歸特性與高記憶體強度高度匹配，這正是SRAM中心架構的優勢所在。Gimlet近期完成了8000萬美元的A輪融資，其雲端已同時執行著SRAM加速器與傳統GPU。

從產業鏈視角看，SRAM晶片的興起並非要完全替代GPU，而是在推理這一特定且快速膨脹的市場中，提供一種更極致的效能選項。隨著頂級實驗室日益加大對推理速度與吞吐量的投入，圍繞記憶體頻寬展開的技術路線競爭，或將重新劃分AI晶片市場的版圖，並對上游製造、封裝以及下游雲服務定價模式產生深遠影響。

SRAM晶片為何在AI推理時代嶄露頭角

延伸閱讀

相關深度報道

相關每日新聞