OpenAI 新系統優化方案將推理成本砍半

OpenAI通過新系統優化方案，將模型推理成本降低超50%，過去需幾萬張GPU的需求現在僅需幾百張

OpenAI 正在系統性地解決 AI 模型部署中最棘手的成本問題。據外媒援引知情人士消息，該公司已開發出一種新的系統優化方案，能將模型推理成本削減一半以上。過去需要數萬張 GPU 才能滿足的推理需求，在新架構下僅需幾百張即可完成。

這一突破的核心在於對 KV cache 的深度優化。KV cache 是大模型生成文本時留下的“記憶筆記”——模型每生成一個新詞元，都要反覆讀取前文信息，這些熱數據必須存放在帶寬最高、延遲最低的 HBM 顯存中。如果每次生成都重新計算整段前文，成本將呈指數級膨脹。OpenAI 的方案正是通過壓縮和複用 KV cache，大幅減少了對 HBM 容量和帶寬的佔用，從而降低單次推理的硬件開銷。

事實上，OpenAI 對 KV cache 的優化已有鋪墊。早在 2024 年 10 月，其開發者文檔就引入了 Prompt Caching 機制，允許對重複出現的系統提示、代碼庫上下文或長對話歷史複用中間計算結果，官方稱最高可將延遲降低 80%，輸入 token 成本降低 90%。而更早的 2024 年 5 月，DeepSeek 在 DeepSeek-V2 技術報告中提出了 Multi-head Latent Attention（MLA），將 KV cache 壓縮進潛在向量，使緩存體積減少 93.3%，生成吞吐提升至 5.76 倍。OpenAI 此次優化，被外界視為沿著 DeepSeek 已驗證的降本路徑前進。

從硬件層面看，OpenAI 同樣在佈局推理成本的長期控制。2026 年 6 月，OpenAI 與博通聯合發佈了首款自研 AI 推理芯片 Jalapeño，從電路設計之初就專為大語言模型推理優化，官方稱可將 LLM 服務成本降低約 50%。若疊加此次 KV cache 的軟件優化，整體推理成本有望下降一個數量級。此外，2026 年 1 月，OpenAI 與晶圓級芯片公司 Cerebras 簽署了超 100 億美元 的協議，獲得 750MW 推理算力支持，未來可能擴展至 2GW。Cerebras 的 WSE-3 芯片將整片晶圓作為單一處理器，內存帶寬是英偉達 B200 的 2625 倍，推理速度可比傳統 GPU 方案快 15 倍，已成功運行 GPT-5.3 等模型。

這一系列動作背後是巨大的財務壓力。洩露的財務數據顯示，OpenAI 2025 年全年收入 130.7 億美元，但總成本和費用高達 340 億美元，運營虧損 209 億美元，僅支付給微軟的雲計算賬單就超過 172 億美元。2026 年預計在推理和訓練上燒掉 141 億美元。儘管 2026 年第一季度 API 業務毛利率提升至 39%，並計劃年底達到 52%，但控制成本仍是 OpenAI 在潛在 2027 年上市前必須跨越的生死線。

對 AI 產業而言，KV cache 優化與 HBM 需求之間存在微妙的博弈關係。單個請求佔用的 HBM 容量可能因壓縮技術而下降，但模型廠商會立刻將省出的顯存用於更長上下文、更高併發或更復雜的智能體任務，總需求未必減少。同時，HBM 還需承載模型權重和中間計算，其帶寬和容量仍是核心瓶頸。當前 SK 海力士 和三星已量產 HBM4，單堆棧帶寬達 2.8 TB/s，但英特爾與軟銀推出的 ZAM 新型顯存也在試圖打破雙寡頭格局。OpenAI 的降本實踐，正在推動整個行業重新審視算力效率與硬件需求的平衡點。

OpenAI 新系統優化方案將推理成本砍半

延伸閱讀

相關深度報道

相關每日新聞