英特爾正在用一套更務實的芯片策略殺回AI加速器戰場。據多家媒體報道,公司計劃在2024年年底前正式推出新一代AI圖像處理器“Crescent Island”,直指推理工作負載,並刻意在硬件設計上與英偉達、AMD的主流產品拉開距離:不使用高帶寬內存,改用成本更低的普通內存;冷卻系統也迴歸傳統風冷,而非複雜的液冷方案。領導英特爾數據中心業務的 Kevork Kechichian 對外闡釋了這一思路,稱團隊正“從基礎入手”重新審視推理芯片的架構,希望以更易部署、總擁有成本更低的方案打動雲廠商與企業客戶。

儘管目前英偉達的H100、B200系列在AI訓練市場幾乎佔據了不可撼動的地位,但推理的爆發式增長正在打開另一扇窗。推理是指模型完成訓練後,響應用戶每一次提問、生成每一段文本或圖像的過程,其芯片需求與訓練有著本質不同:對絕對峰值算力的要求有所降低,但對吞吐量、延遲以及單位功耗成本異常敏感。在新一輪大模型潮湧中,推理需求正隨應用落地急劇攀升,使得專門為推理優化的芯片商業前景快速放大。英特爾此次押注的正是這一差異化窗口。

從技術背景看,英偉達的Hopper和即將量產的Blackwell架構採用HBM3e高帶寬內存和精密液冷,以實現極致訓練性能,但這也帶來了高昂的物料與運維成本。而“Crescent Island”通過迴歸更廉價的DDR類或類似標準內存,以及只用風冷散熱,犧牲了一部分理論峰值性能,卻大幅壓縮了單卡成本與服務器集群的散熱功耗預算。這種取捨在推理場景中可能成立,因為推理卡更多需要並行跑海量輕量請求,而非持續滿負載運轉。

對AI產業而言,這一動向有著明顯的“五層蛋糕”含義。它首先直接作用於芯片層,在英偉達近乎壟斷的高端訓練卡之外,增加了推理細分市場的第二供應源,有助於緩解客戶對單一供應商的過度依賴。其次,推理芯片的降本會向下傳導到基礎設施層——數據中心可以用更低的電力與製冷開銷部署更大的推理算力池,從而壓低應用落地的算力成本。最終受益的將是模型層應用層,更多中小模型開發者、SaaS公司能以更經濟的成本提供實時生成式AI服務。

當然,市場亦需看到現實的挑戰。英特爾在數據中心GPU領域尚處於追趕地位,其前代數據中心GPU產品未能動搖英偉達的基本盤。此次“Crescent Island”能否按時量產、生態軟件棧是否成熟、客戶接納速度如何,都還是未知數。不過,如果推理朝著“總量巨大、單次任務輕量”的方向持續演進,一條從內存到散熱全面壓縮硬件成本的路線,極有可能在邊緣推理、推薦系統、批量文本處理等場景中搶到一席之地。這將使AI硬件投資的敘事從單純“誰算力最強”部分轉向“誰能讓單位推理成本最低”,值得產業觀察者持續跟蹤。