SRAM芯片为何在AI推理时代崭露头角

HPCwire报道，AI热潮进入第二阶段，基于SRAM的新型芯片正崭露头角。

在由英伟达 GPU主导的AI训练热潮之后，产业正步入一个更考验响应速度与成本效率的推理时代。HPCwire的一篇报道指出，一种基于静态随机存取存储器（SRAM）的新型芯片架构正悄然走向前台，试图打破长期困扰AI推理的“GPU内存墙”。

所谓“内存墙”，指的是GPU在执行推理时，能够缓存的历史计算键值对（KV缓存）规模受到严重制约。这直接导致上下文窗口受限、响应延迟增加或并发用户数下降，最终损害终端体验。传统上，GPU依赖的高带宽内存（HBM）虽然容量可观，但因其位于芯片外部，总内存带宽被限制在每秒1.2TB（HBM3）到2TB（HBM4）的水平。相比之下，直接集成在芯片上的SRAM可提供每秒100TB至150TB的惊人带宽，尽管成本更高，却为破解KV缓存难题提供了“暴力”解法。

这一技术路线的潜力已吸引多家公司重注投入。英伟达在去年12月以200亿美元收购了专注于语言处理单元（LPU）的Groq，后者正是将向量与矩阵计算单元直接构建在搭载大量SRAM的芯片上。今年3月的GTC大会上，英伟达迅速推出了基于该技术的Groq 3 LPX机架产品，显示出其捍卫推理市场的决心。

与此同时，位于加州圣克拉拉的初创公司d-Matrix也选择了类似路径。其基于数字存内计算（DCIM）架构的Corsair加速卡，采用3D堆叠的芯粒形态，集成了256MB的SRAM，单卡即可通过PCIe Gen 5接口提供每秒150TB的内存带宽。d-Matrix昨日宣布，Corsair已全面投产并向优先客户批量发货。该加速卡在600瓦热设计功耗（TDP）内可提供高达2400万亿次8位密集计算能力，并可在标准风冷服务器机架中部署，由台积电和Alchip基于台积电N6工艺节点制造。公司创始人兼CEO Sid Sheth直言，Corsair专为“AI推理时代”而生，瞄准的是智能体AI、交互式编码和实时语音助手等对延迟极度敏感的应用。

另一家将SRAM路线推向极致的是Cerebras Systems。其晶圆级引擎WSE-3堪称芯片中的巨兽，在一块餐盘大小的硅晶圆上集成了4万亿个晶体管、44GB片上SRAM以及近100万个AI计算核心。配合最高1PB的外部内存，该芯片能够训练参数规模超过24万亿的全球最大AI模型。Cerebras三周前刚刚登陆纳斯达克，以每股185美元的价格募资55.5亿美元，创下今年迄今最大IPO纪录，当前公司估值高达560亿美元，成为SRAM芯片市场的风向标。

值得关注的还有来自斯坦福大学的应用AI研究初创公司Gimlet Labs。该公司正在构建一个“多硅推理云”，通过在硬件与工作负载之间建立抽象层，为客户消除硬件选型烦恼。其联合创始人兼CEO Zain Asgar在一篇博客中指出，AI推理的预填充与解码阶段对处理器和内存的需求截然不同，而解码阶段的自回归特性与高内存强度高度匹配，这正是SRAM中心架构的优势所在。Gimlet近期完成了8000万美元的A轮融资，其云端已同时运行着SRAM加速器与传统GPU。

从产业链视角看，SRAM芯片的兴起并非要完全替代GPU，而是在推理这一特定且快速膨胀的市场中，提供一种更极致的性能选项。随着顶级实验室日益加大对推理速度与吞吐量的投入，围绕内存带宽展开的技术路线竞争，或将重新划分AI芯片市场的版图，并对上游制造、封装以及下游云服务定价模式产生深远影响。

SRAM芯片为何在AI推理时代崭露头角

延伸阅读

相关深度报道

相关每日新闻