高通正以一項名為高帶寬計算(HBC)的激進架構,向AI數據中心基礎設施發起新一輪衝擊。在2026年投資者日上,這家移動芯片巨頭展示了將DRAM多層堆疊在XPU計算單元之上的設計方案,試圖通過物理上“拉近”計算與內存的距離,打破長期制約AI推理效率的“內存牆”。
按照高通數據中心執行副總裁Tony Pialis的說法,HBC兼具SRAM的性能優勢與HBM(高帶寬內存)的密度和容量。首款基於該架構的AI250加速卡計劃明年作為Dragonfly機架系統的一部分出貨,單卡配備768 GB內存容量,標稱“有效”內存帶寬高達133 TB/s。對比來看,英偉達Groq 3 LPU僅提供500 MB的SRAM與150 TB/s帶寬,高通的紙面參數顯得極為突出。
不過,高通反覆強調的“有效”一詞值得深究。其今年推出的AI200系統曾宣稱跨56顆芯片實現414 TB/s“有效”內存帶寬,但若僅靠8800 MT/s的LPDDR5x達成這一數字,理論上需要6720位寬的內存總線,這在實際硬件中幾乎不可能存在。高通堅稱這是“LPDDR接口的純物理帶寬”,卻拒絕解釋如何用遠少於英偉達八顆HBM3e堆疊的配置實現同等效果。
HBC架構的核心邏輯在於將部分計算任務下沉到DRAM下方的基礎芯片上執行。傳統數據中心GPU需要在HBM與計算芯片之間頻繁搬運數據,即便採用臺積電CoWoS等先進封裝,功耗代價依然高昂。高通通過硅通孔(TSV)將DRAM直接堆疊在邏輯電路上方,大幅縮短數據搬運路徑。Pialis用“住在上班的同一棟樓裡,只需上下樓”來比喻這種設計——當帶寬密集型操作在基礎芯片上完成時,需要往返於HBC模塊與主SoC之間的數據量銳減,內存帶寬因此被“放大”。
這種架構尤其適合AI推理中的解碼(decode)階段。解碼時模型的活躍權重需逐個令牌地從內存中自迴歸式流出,對計算密度要求不高,卻極度依賴內存帶寬。將解碼部分或全部放在HBC中執行,既能規避多層DRAM堆疊帶來的散熱限制,又能顯著提升推理經濟性。高通表示,AI250可作為獨立AI加速器使用,也可在分離式推理架構中與GPU或其他高通芯片搭配,專門加速內存密集的解碼操作。不過,公司拒絕透露AI250的峰值FLOPS數據。
從產業競爭角度看,高通並非近存計算領域的唯一玩家。據傳英偉達與AMD均在與HBM供應商及臺積電合作開發定製基礎芯片,以提升下一代產品的性能,只是尚不清楚其中集成了多少計算能力。高通強調,HBC使用的是LPDDR內存,在專為AI數據搬運瓶頸設計的3D堆疊硅架構中融合計算與高加速內存帶寬,與HBM雖共享堆疊內存概念,但本質上是不同的技術路線。
若HBC能兌現其帶寬與能效承諾,高通有望在推理芯片市場撕開一道缺口。當前數據中心AI加速器市場由英偉達GPU主導,AMD與Cerebras等初創公司也在奮力追趕。高通此前在數據中心領域的存在感遠不及移動端,其AI系列加速器與頭部競品相比並無明顯優勢。HBC架構的成敗,將直接決定這家移動芯片巨頭能否在AI基礎設施的牌桌上贏得一席之地。