高通近日正式披露其高帶寬計算(HBC)近存計算架構,試圖打破長期制約AI工作負載的“內存牆”瓶頸。該方案將AI加速器從主芯片中分離,直接置於LPDDR DRAM堆棧下方,通過硅通孔(TSV)實現垂直互聯,從而在標準封裝內獲取接近片上SRAM的帶寬表現,同時保留堆疊內存的密度與容量優勢。
高通數據中心業務執行副總裁兼總經理Tony Pialis表示,這種設計消除了HBM方案中常見的擁堵問題,並省去了昂貴的硅中介層。公司宣稱,HBC架構的每瓦帶寬達到HBM的6倍,而容量則是片上SRAM的200倍以上,但未披露具體帶寬數值。
近存計算並非全新概念,多家DRAM廠商曾嘗試類似路徑,但均未實現大規模商用。近期,創意電子(GUC)也提出邏輯上堆疊DRAM(DoL)技術,可在邏輯層上方放置一至四層DRAM,獲得約5 TB/s的內存帶寬,部分場景下性能優於HBM3E子系統。由於高通未給出HBC加速器的具體性能指標與功能定義,目前難以與GUC方案直接比較。業界對HBC加速器的實際用途仍存疑問——它可能是一個面向Transformer的專用近存引擎,也可能是更通用的張量核心陣列,或是某種AI推理與訓練的預處理邏輯。
伴隨HBC架構,高通還公佈了加速器路線圖。計劃於今年晚些時候推出的AI200加速器將基於LPDDR5X,單機架內存容量達43 TB。後續的AI250將採用第一代HBC,帶寬可達AI200的18倍;而AI300則將搭載第二代HBC,帶寬進一步躍升至AI200的54倍。
從產業鏈角度看,HBC若成功量產,可能對當前由HBM和先進封裝主導的高端AI芯片格局形成補充甚至局部替代。其標準封裝兼容性與成本優勢,有望降低大規模AI推理部署的門檻,尤其對雲服務商和企業級數據中心而言,能效比和每瓦帶寬的提升直接關係到運營成本。不過,在缺乏獨立性能驗證和具體應用場景適配案例之前,市場仍需觀察該架構從紙面指標到實際工作負載的轉化效率。