高通近日正式披露其高带宽计算(HBC)近存计算架构,试图打破长期制约AI工作负载的“内存墙”瓶颈。该方案将AI加速器从主芯片中分离,直接置于LPDDR DRAM堆栈下方,通过硅通孔(TSV)实现垂直互联,从而在标准封装内获取接近片上SRAM的带宽表现,同时保留堆叠内存的密度与容量优势。
高通数据中心业务执行副总裁兼总经理Tony Pialis表示,这种设计消除了HBM方案中常见的拥堵问题,并省去了昂贵的硅中介层。公司宣称,HBC架构的每瓦带宽达到HBM的6倍,而容量则是片上SRAM的200倍以上,但未披露具体带宽数值。
近存计算并非全新概念,多家DRAM厂商曾尝试类似路径,但均未实现大规模商用。近期,创意电子(GUC)也提出逻辑上堆叠DRAM(DoL)技术,可在逻辑层上方放置一至四层DRAM,获得约5 TB/s的内存带宽,部分场景下性能优于HBM3E子系统。由于高通未给出HBC加速器的具体性能指标与功能定义,目前难以与GUC方案直接比较。业界对HBC加速器的实际用途仍存疑问——它可能是一个面向Transformer的专用近存引擎,也可能是更通用的张量核心阵列,或是某种AI推理与训练的预处理逻辑。
伴随HBC架构,高通还公布了加速器路线图。计划于今年晚些时候推出的AI200加速器将基于LPDDR5X,单机架内存容量达43 TB。后续的AI250将采用第一代HBC,带宽可达AI200的18倍;而AI300则将搭载第二代HBC,带宽进一步跃升至AI200的54倍。
从产业链角度看,HBC若成功量产,可能对当前由HBM和先进封装主导的高端AI芯片格局形成补充甚至局部替代。其标准封装兼容性与成本优势,有望降低大规模AI推理部署的门槛,尤其对云服务商和企业级数据中心而言,能效比和每瓦带宽的提升直接关系到运营成本。不过,在缺乏独立性能验证和具体应用场景适配案例之前,市场仍需观察该架构从纸面指标到实际工作负载的转化效率。