OpenAI 正在系统性地解决 AI 模型部署中最棘手的成本问题。据外媒援引知情人士消息,该公司已开发出一种新的系统优化方案,能将模型推理成本削减一半以上。过去需要数万张 GPU 才能满足的推理需求,在新架构下仅需几百张即可完成。
这一突破的核心在于对 KV cache 的深度优化。KV cache 是大模型生成文本时留下的“记忆笔记”——模型每生成一个新词元,都要反复读取前文信息,这些热数据必须存放在带宽最高、延迟最低的 HBM 显存中。如果每次生成都重新计算整段前文,成本将呈指数级膨胀。OpenAI 的方案正是通过压缩和复用 KV cache,大幅减少了对 HBM 容量和带宽的占用,从而降低单次推理的硬件开销。
事实上,OpenAI 对 KV cache 的优化已有铺垫。早在 2024 年 10 月,其开发者文档就引入了 Prompt Caching 机制,允许对重复出现的系统提示、代码库上下文或长对话历史复用中间计算结果,官方称最高可将延迟降低 80%,输入 token 成本降低 90%。而更早的 2024 年 5 月,DeepSeek 在 DeepSeek-V2 技术报告中提出了 Multi-head Latent Attention(MLA),将 KV cache 压缩进潜在向量,使缓存体积减少 93.3%,生成吞吐提升至 5.76 倍。OpenAI 此次优化,被外界视为沿着 DeepSeek 已验证的降本路径前进。
从硬件层面看,OpenAI 同样在布局推理成本的长期控制。2026 年 6 月,OpenAI 与 博通 联合发布了首款自研 AI 推理芯片 Jalapeño,从电路设计之初就专为大语言模型推理优化,官方称可将 LLM 服务成本降低约 50%。若叠加此次 KV cache 的软件优化,整体推理成本有望下降一个数量级。此外,2026 年 1 月,OpenAI 与晶圆级芯片公司 Cerebras 签署了超 100 亿美元 的协议,获得 750MW 推理算力支持,未来可能扩展至 2GW。Cerebras 的 WSE-3 芯片将整片晶圆作为单一处理器,内存带宽是英伟达 B200 的 2625 倍,推理速度可比传统 GPU 方案快 15 倍,已成功运行 GPT-5.3 等模型。
这一系列动作背后是巨大的财务压力。泄露的财务数据显示,OpenAI 2025 年全年收入 130.7 亿美元,但总成本和费用高达 340 亿美元,运营亏损 209 亿美元,仅支付给微软的云计算账单就超过 172 亿美元。2026 年预计在推理和训练上烧掉 141 亿美元。尽管 2026 年第一季度 API 业务毛利率提升至 39%,并计划年底达到 52%,但控制成本仍是 OpenAI 在潜在 2027 年上市前必须跨越的生死线。
对 AI 产业而言,KV cache 优化与 HBM 需求之间存在微妙的博弈关系。单个请求占用的 HBM 容量可能因压缩技术而下降,但模型厂商会立刻将省出的显存用于更长上下文、更高并发或更复杂的智能体任务,总需求未必减少。同时,HBM 还需承载模型权重和中间计算,其带宽和容量仍是核心瓶颈。当前 SK 海力士 和 三星 已量产 HBM4,单堆栈带宽达 2.8 TB/s,但英特尔与软银推出的 ZAM 新型显存也在试图打破双寡头格局。OpenAI 的降本实践,正在推动整个行业重新审视算力效率与硬件需求的平衡点。