高通推HBC近存計算架構，AI加速器帶寬號稱提升18倍

高通下一代AI加速器將計算單元置於DRAM之下，旨在突破內存牆瓶頸。

高通正以一項名為高帶寬計算（HBC）的激進架構，向AI數據中心基礎設施發起新一輪衝擊。在2026年投資者日上，這家移動芯片巨頭展示了將DRAM多層堆疊在XPU計算單元之上的設計方案，試圖通過物理上“拉近”計算與內存的距離，打破長期制約AI推理效率的“內存牆”。

按照高通數據中心執行副總裁Tony Pialis的說法，HBC兼具SRAM的性能優勢與HBM（高帶寬內存）的密度和容量。首款基於該架構的AI250加速卡計劃明年作為Dragonfly機架系統的一部分出貨，單卡配備768 GB內存容量，標稱“有效”內存帶寬高達133 TB/s。對比來看，英偉達Groq 3 LPU僅提供500 MB的SRAM與150 TB/s帶寬，高通的紙面參數顯得極為突出。

不過，高通反覆強調的“有效”一詞值得深究。其今年推出的AI200系統曾宣稱跨56顆芯片實現414 TB/s“有效”內存帶寬，但若僅靠8800 MT/s的LPDDR5x達成這一數字，理論上需要6720位寬的內存總線，這在實際硬件中幾乎不可能存在。高通堅稱這是“LPDDR接口的純物理帶寬”，卻拒絕解釋如何用遠少於英偉達八顆HBM3e堆疊的配置實現同等效果。

HBC架構的核心邏輯在於將部分計算任務下沉到DRAM下方的基礎芯片上執行。傳統數據中心GPU需要在HBM與計算芯片之間頻繁搬運數據，即便採用臺積電CoWoS等先進封裝，功耗代價依然高昂。高通通過硅通孔（TSV）將DRAM直接堆疊在邏輯電路上方，大幅縮短數據搬運路徑。Pialis用“住在上班的同一棟樓裡，只需上下樓”來比喻這種設計——當帶寬密集型操作在基礎芯片上完成時，需要往返於HBC模塊與主SoC之間的數據量銳減，內存帶寬因此被“放大”。

這種架構尤其適合AI推理中的解碼（decode）階段。解碼時模型的活躍權重需逐個令牌地從內存中自迴歸式流出，對計算密度要求不高，卻極度依賴內存帶寬。將解碼部分或全部放在HBC中執行，既能規避多層DRAM堆疊帶來的散熱限制，又能顯著提升推理經濟性。高通表示，AI250可作為獨立AI加速器使用，也可在分離式推理架構中與GPU或其他高通芯片搭配，專門加速內存密集的解碼操作。不過，公司拒絕透露AI250的峰值FLOPS數據。

從產業競爭角度看，高通並非近存計算領域的唯一玩家。據傳英偉達與AMD均在與HBM供應商及臺積電合作開發定製基礎芯片，以提升下一代產品的性能，只是尚不清楚其中集成了多少計算能力。高通強調，HBC使用的是LPDDR內存，在專為AI數據搬運瓶頸設計的3D堆疊硅架構中融合計算與高加速內存帶寬，與HBM雖共享堆疊內存概念，但本質上是不同的技術路線。

若HBC能兌現其帶寬與能效承諾，高通有望在推理芯片市場撕開一道缺口。當前數據中心AI加速器市場由英偉達GPU主導，AMD與Cerebras等初創公司也在奮力追趕。高通此前在數據中心領域的存在感遠不及移動端，其AI系列加速器與頭部競品相比並無明顯優勢。HBC架構的成敗，將直接決定這家移動芯片巨頭能否在AI基礎設施的牌桌上贏得一席之地。

高通推HBC近存計算架構，AI加速器帶寬號稱提升18倍

延伸閱讀

相關深度報道

相關每日新聞