在由英伟达GPU主导的AI训练热潮之后,产业正步入一个更考验响应速度与成本效率的推理时代。HPCwire的一篇报道指出,一种基于静态随机存取存储器(SRAM)的新型芯片架构正悄然走向前台,试图打破长期困扰AI推理的“GPU内存墙”。

所谓“内存墙”,指的是GPU在执行推理时,能够缓存的历史计算键值对(KV缓存)规模受到严重制约。这直接导致上下文窗口受限、响应延迟增加或并发用户数下降,最终损害终端体验。传统上,GPU依赖的高带宽内存(HBM)虽然容量可观,但因其位于芯片外部,总内存带宽被限制在每秒1.2TB(HBM3)到2TB(HBM4)的水平。相比之下,直接集成在芯片上的SRAM可提供每秒100TB至150TB的惊人带宽,尽管成本更高,却为破解KV缓存难题提供了“暴力”解法。

这一技术路线的潜力已吸引多家公司重注投入。英伟达在去年12月以200亿美元收购了专注于语言处理单元(LPU)的Groq,后者正是将向量与矩阵计算单元直接构建在搭载大量SRAM的芯片上。今年3月的GTC大会上,英伟达迅速推出了基于该技术的Groq 3 LPX机架产品,显示出其捍卫推理市场的决心。

与此同时,位于加州圣克拉拉的初创公司d-Matrix也选择了类似路径。其基于数字存内计算(DCIM)架构的Corsair加速卡,采用3D堆叠的芯粒形态,集成了256MB的SRAM,单卡即可通过PCIe Gen 5接口提供每秒150TB的内存带宽。d-Matrix昨日宣布,Corsair已全面投产并向优先客户批量发货。该加速卡在600瓦热设计功耗(TDP)内可提供高达2400万亿次8位密集计算能力,并可在标准风冷服务器机架中部署,由台积电和Alchip基于台积电N6工艺节点制造。公司创始人兼CEO Sid Sheth直言,Corsair专为“AI推理时代”而生,瞄准的是智能体AI、交互式编码和实时语音助手等对延迟极度敏感的应用。

另一家将SRAM路线推向极致的是Cerebras Systems。其晶圆级引擎WSE-3堪称芯片中的巨兽,在一块餐盘大小的硅晶圆上集成了4万亿个晶体管、44GB片上SRAM以及近100万个AI计算核心。配合最高1PB的外部内存,该芯片能够训练参数规模超过24万亿的全球最大AI模型。Cerebras三周前刚刚登陆纳斯达克,以每股185美元的价格募资55.5亿美元,创下今年迄今最大IPO纪录,当前公司估值高达560亿美元,成为SRAM芯片市场的风向标。

值得关注的还有来自斯坦福大学的应用AI研究初创公司Gimlet Labs。该公司正在构建一个“多硅推理云”,通过在硬件与工作负载之间建立抽象层,为客户消除硬件选型烦恼。其联合创始人兼CEO Zain Asgar在一篇博客中指出,AI推理的预填充与解码阶段对处理器和内存的需求截然不同,而解码阶段的自回归特性与高内存强度高度匹配,这正是SRAM中心架构的优势所在。Gimlet近期完成了8000万美元的A轮融资,其云端已同时运行着SRAM加速器与传统GPU。

从产业链视角看,SRAM芯片的兴起并非要完全替代GPU,而是在推理这一特定且快速膨胀的市场中,提供一种更极致的性能选项。随着顶级实验室日益加大对推理速度与吞吐量的投入,围绕内存带宽展开的技术路线竞争,或将重新划分AI芯片市场的版图,并对上游制造、封装以及下游云服务定价模式产生深远影响。