高通正以一项名为高带宽计算(HBC)的激进架构,向AI数据中心基础设施发起新一轮冲击。在2026年投资者日上,这家移动芯片巨头展示了将DRAM多层堆叠在XPU计算单元之上的设计方案,试图通过物理上“拉近”计算与内存的距离,打破长期制约AI推理效率的“内存墙”。

按照高通数据中心执行副总裁Tony Pialis的说法,HBC兼具SRAM的性能优势与HBM高带宽内存)的密度和容量。首款基于该架构的AI250加速卡计划明年作为Dragonfly机架系统的一部分出货,单卡配备768 GB内存容量,标称“有效”内存带宽高达133 TB/s。对比来看,英伟达Groq 3 LPU仅提供500 MB的SRAM与150 TB/s带宽,高通的纸面参数显得极为突出。

不过,高通反复强调的“有效”一词值得深究。其今年推出的AI200系统曾宣称跨56颗芯片实现414 TB/s“有效”内存带宽,但若仅靠8800 MT/sLPDDR5x达成这一数字,理论上需要6720位宽的内存总线,这在实际硬件中几乎不可能存在。高通坚称这是“LPDDR接口的纯物理带宽”,却拒绝解释如何用远少于英伟达八颗HBM3e堆叠的配置实现同等效果。

HBC架构的核心逻辑在于将部分计算任务下沉到DRAM下方的基础芯片上执行。传统数据中心GPU需要在HBM与计算芯片之间频繁搬运数据,即便采用台积电CoWoS等先进封装,功耗代价依然高昂。高通通过硅通孔(TSV)将DRAM直接堆叠在逻辑电路上方,大幅缩短数据搬运路径。Pialis用“住在上班的同一栋楼里,只需上下楼”来比喻这种设计——当带宽密集型操作在基础芯片上完成时,需要往返于HBC模块与主SoC之间的数据量锐减,内存带宽因此被“放大”。

这种架构尤其适合AI推理中的解码(decode)阶段。解码时模型的活跃权重需逐个令牌地从内存中自回归式流出,对计算密度要求不高,却极度依赖内存带宽。将解码部分或全部放在HBC中执行,既能规避多层DRAM堆叠带来的散热限制,又能显著提升推理经济性。高通表示,AI250可作为独立AI加速器使用,也可在分离式推理架构中与GPU或其他高通芯片搭配,专门加速内存密集的解码操作。不过,公司拒绝透露AI250的峰值FLOPS数据。

从产业竞争角度看,高通并非近存计算领域的唯一玩家。据传英伟达与AMD均在与HBM供应商及台积电合作开发定制基础芯片,以提升下一代产品的性能,只是尚不清楚其中集成了多少计算能力。高通强调,HBC使用的是LPDDR内存,在专为AI数据搬运瓶颈设计的3D堆叠硅架构中融合计算与高加速内存带宽,与HBM虽共享堆叠内存概念,但本质上是不同的技术路线。

若HBC能兑现其带宽与能效承诺,高通有望在推理芯片市场撕开一道缺口。当前数据中心AI加速器市场由英伟达GPU主导,AMDCerebras等初创公司也在奋力追赶。高通此前在数据中心领域的存在感远不及移动端,其AI系列加速器与头部竞品相比并无明显优势。HBC架构的成败,将直接决定这家移动芯片巨头能否在AI基础设施的牌桌上赢得一席之地。