OpenAI 新系统优化方案将推理成本砍半

OpenAI通过新系统优化方案，将模型推理成本降低超50%，过去需几万张GPU的需求现在仅需几百张

OpenAI 正在系统性地解决 AI 模型部署中最棘手的成本问题。据外媒援引知情人士消息，该公司已开发出一种新的系统优化方案，能将模型推理成本削减一半以上。过去需要数万张 GPU 才能满足的推理需求，在新架构下仅需几百张即可完成。

这一突破的核心在于对 KV cache 的深度优化。KV cache 是大模型生成文本时留下的“记忆笔记”——模型每生成一个新词元，都要反复读取前文信息，这些热数据必须存放在带宽最高、延迟最低的 HBM 显存中。如果每次生成都重新计算整段前文，成本将呈指数级膨胀。OpenAI 的方案正是通过压缩和复用 KV cache，大幅减少了对 HBM 容量和带宽的占用，从而降低单次推理的硬件开销。

事实上，OpenAI 对 KV cache 的优化已有铺垫。早在 2024 年 10 月，其开发者文档就引入了 Prompt Caching 机制，允许对重复出现的系统提示、代码库上下文或长对话历史复用中间计算结果，官方称最高可将延迟降低 80%，输入 token 成本降低 90%。而更早的 2024 年 5 月，DeepSeek 在 DeepSeek-V2 技术报告中提出了 Multi-head Latent Attention（MLA），将 KV cache 压缩进潜在向量，使缓存体积减少 93.3%，生成吞吐提升至 5.76 倍。OpenAI 此次优化，被外界视为沿着 DeepSeek 已验证的降本路径前进。

从硬件层面看，OpenAI 同样在布局推理成本的长期控制。2026 年 6 月，OpenAI 与博通联合发布了首款自研 AI 推理芯片 Jalapeño，从电路设计之初就专为大语言模型推理优化，官方称可将 LLM 服务成本降低约 50%。若叠加此次 KV cache 的软件优化，整体推理成本有望下降一个数量级。此外，2026 年 1 月，OpenAI 与晶圆级芯片公司 Cerebras 签署了超 100 亿美元 的协议，获得 750MW 推理算力支持，未来可能扩展至 2GW。Cerebras 的 WSE-3 芯片将整片晶圆作为单一处理器，内存带宽是英伟达 B200 的 2625 倍，推理速度可比传统 GPU 方案快 15 倍，已成功运行 GPT-5.3 等模型。

这一系列动作背后是巨大的财务压力。泄露的财务数据显示，OpenAI 2025 年全年收入 130.7 亿美元，但总成本和费用高达 340 亿美元，运营亏损 209 亿美元，仅支付给微软的云计算账单就超过 172 亿美元。2026 年预计在推理和训练上烧掉 141 亿美元。尽管 2026 年第一季度 API 业务毛利率提升至 39%，并计划年底达到 52%，但控制成本仍是 OpenAI 在潜在 2027 年上市前必须跨越的生死线。

对 AI 产业而言，KV cache 优化与 HBM 需求之间存在微妙的博弈关系。单个请求占用的 HBM 容量可能因压缩技术而下降，但模型厂商会立刻将省出的显存用于更长上下文、更高并发或更复杂的智能体任务，总需求未必减少。同时，HBM 还需承载模型权重和中间计算，其带宽和容量仍是核心瓶颈。当前 SK 海力士 和三星已量产 HBM4，单堆栈带宽达 2.8 TB/s，但英特尔与软银推出的 ZAM 新型显存也在试图打破双寡头格局。OpenAI 的降本实践，正在推动整个行业重新审视算力效率与硬件需求的平衡点。

OpenAI 新系统优化方案将推理成本砍半

延伸阅读

相关深度报道

相关每日新闻