高通推HBC近存计算架构，AI加速器带宽号称提升18倍

高通下一代AI加速器将计算单元置于DRAM之下，旨在突破内存墙瓶颈。

高通正以一项名为高带宽计算（HBC）的激进架构，向AI数据中心基础设施发起新一轮冲击。在2026年投资者日上，这家移动芯片巨头展示了将DRAM多层堆叠在XPU计算单元之上的设计方案，试图通过物理上“拉近”计算与内存的距离，打破长期制约AI推理效率的“内存墙”。

按照高通数据中心执行副总裁Tony Pialis的说法，HBC兼具SRAM的性能优势与HBM（高带宽内存）的密度和容量。首款基于该架构的AI250加速卡计划明年作为Dragonfly机架系统的一部分出货，单卡配备768 GB内存容量，标称“有效”内存带宽高达133 TB/s。对比来看，英伟达Groq 3 LPU仅提供500 MB的SRAM与150 TB/s带宽，高通的纸面参数显得极为突出。

不过，高通反复强调的“有效”一词值得深究。其今年推出的AI200系统曾宣称跨56颗芯片实现414 TB/s“有效”内存带宽，但若仅靠8800 MT/s的LPDDR5x达成这一数字，理论上需要6720位宽的内存总线，这在实际硬件中几乎不可能存在。高通坚称这是“LPDDR接口的纯物理带宽”，却拒绝解释如何用远少于英伟达八颗HBM3e堆叠的配置实现同等效果。

HBC架构的核心逻辑在于将部分计算任务下沉到DRAM下方的基础芯片上执行。传统数据中心GPU需要在HBM与计算芯片之间频繁搬运数据，即便采用台积电CoWoS等先进封装，功耗代价依然高昂。高通通过硅通孔（TSV）将DRAM直接堆叠在逻辑电路上方，大幅缩短数据搬运路径。Pialis用“住在上班的同一栋楼里，只需上下楼”来比喻这种设计——当带宽密集型操作在基础芯片上完成时，需要往返于HBC模块与主SoC之间的数据量锐减，内存带宽因此被“放大”。

这种架构尤其适合AI推理中的解码（decode）阶段。解码时模型的活跃权重需逐个令牌地从内存中自回归式流出，对计算密度要求不高，却极度依赖内存带宽。将解码部分或全部放在HBC中执行，既能规避多层DRAM堆叠带来的散热限制，又能显著提升推理经济性。高通表示，AI250可作为独立AI加速器使用，也可在分离式推理架构中与GPU或其他高通芯片搭配，专门加速内存密集的解码操作。不过，公司拒绝透露AI250的峰值FLOPS数据。

从产业竞争角度看，高通并非近存计算领域的唯一玩家。据传英伟达与AMD均在与HBM供应商及台积电合作开发定制基础芯片，以提升下一代产品的性能，只是尚不清楚其中集成了多少计算能力。高通强调，HBC使用的是LPDDR内存，在专为AI数据搬运瓶颈设计的3D堆叠硅架构中融合计算与高加速内存带宽，与HBM虽共享堆叠内存概念，但本质上是不同的技术路线。

若HBC能兑现其带宽与能效承诺，高通有望在推理芯片市场撕开一道缺口。当前数据中心AI加速器市场由英伟达GPU主导，AMD与Cerebras等初创公司也在奋力追赶。高通此前在数据中心领域的存在感远不及移动端，其AI系列加速器与头部竞品相比并无明显优势。HBC架构的成败，将直接决定这家移动芯片巨头能否在AI基础设施的牌桌上赢得一席之地。

高通推HBC近存计算架构，AI加速器带宽号称提升18倍

延伸阅读

相关深度报道

相关每日新闻