OpenAI 正在系統性地解決 AI 模型部署中最棘手的成本問題。據外媒援引知情人士消息,該公司已開發出一種新的系統優化方案,能將模型推理成本削減一半以上。過去需要數萬張 GPU 才能滿足的推理需求,在新架構下僅需幾百張即可完成。

這一突破的核心在於對 KV cache 的深度優化。KV cache 是大模型生成文本時留下的“記憶筆記”——模型每生成一個新詞元,都要反覆讀取前文信息,這些熱數據必須存放在帶寬最高、延遲最低的 HBM 顯存中。如果每次生成都重新計算整段前文,成本將呈指數級膨脹。OpenAI 的方案正是通過壓縮和複用 KV cache,大幅減少了對 HBM 容量和帶寬的佔用,從而降低單次推理的硬件開銷。

事實上,OpenAI 對 KV cache 的優化已有鋪墊。早在 2024 年 10 月,其開發者文檔就引入了 Prompt Caching 機制,允許對重複出現的系統提示、代碼庫上下文或長對話歷史複用中間計算結果,官方稱最高可將延遲降低 80%,輸入 token 成本降低 90%。而更早的 2024 年 5 月DeepSeek 在 DeepSeek-V2 技術報告中提出了 Multi-head Latent Attention(MLA),將 KV cache 壓縮進潛在向量,使緩存體積減少 93.3%,生成吞吐提升至 5.76 倍。OpenAI 此次優化,被外界視為沿著 DeepSeek 已驗證的降本路徑前進。

從硬件層面看,OpenAI 同樣在佈局推理成本的長期控制。2026 年 6 月,OpenAI 與 博通 聯合發佈了首款自研 AI 推理芯片 Jalapeño,從電路設計之初就專為大語言模型推理優化,官方稱可將 LLM 服務成本降低約 50%。若疊加此次 KV cache 的軟件優化,整體推理成本有望下降一個數量級。此外,2026 年 1 月,OpenAI 與晶圓級芯片公司 Cerebras 簽署了超 100 億美元 的協議,獲得 750MW 推理算力支持,未來可能擴展至 2GW。Cerebras 的 WSE-3 芯片將整片晶圓作為單一處理器,內存帶寬是英偉達 B200 的 2625 倍,推理速度可比傳統 GPU 方案快 15 倍,已成功運行 GPT-5.3 等模型。

這一系列動作背後是巨大的財務壓力。洩露的財務數據顯示,OpenAI 2025 年全年收入 130.7 億美元,但總成本和費用高達 340 億美元,運營虧損 209 億美元,僅支付給微軟的雲計算賬單就超過 172 億美元。2026 年預計在推理和訓練上燒掉 141 億美元。儘管 2026 年第一季度 API 業務毛利率提升至 39%,並計劃年底達到 52%,但控制成本仍是 OpenAI 在潛在 2027 年上市前必須跨越的生死線。

對 AI 產業而言,KV cache 優化與 HBM 需求之間存在微妙的博弈關係。單個請求佔用的 HBM 容量可能因壓縮技術而下降,但模型廠商會立刻將省出的顯存用於更長上下文、更高併發或更復雜的智能體任務,總需求未必減少。同時,HBM 還需承載模型權重和中間計算,其帶寬和容量仍是核心瓶頸。當前 SK 海力士三星 已量產 HBM4,單堆棧帶寬達 2.8 TB/s,但英特爾與軟銀推出的 ZAM 新型顯存也在試圖打破雙寡頭格局。OpenAI 的降本實踐,正在推動整個行業重新審視算力效率與硬件需求的平衡點。