OpenAI 正式发布新一代模型 GPT-5.6,旗舰版本 Sol 在关键基准测试中展现出对 Anthropic Claude Mythos 5 的竞争力,但发布节奏却被美国政府的一纸限制令打乱了。

OpenAI 声明称,Sol 在智能体编码测试 Terminal-Bench 2.1 上取得 88.8% 的得分,其增强模式 Sol Ultra 更达到 91.9%,高于 Claude Mythos 5 的 88%。在衡量 AI 挖掘真实安全漏洞能力的 ExploitBench 上,Sol 以约 15 万输出 token 的用量追平了 Mythos Preview 的表现,而 Mythos 5 虽在成功率上领先,却未提供可比的效率数据。OpenAI 强调,Sol 是其迄今能力最强的网络安全模型,但定位为防御者,在自主完成完整攻击链方面仍低于内部 “网络关键” 风险阈值。

与性能数据形成反差的是严苛的访问限制。OpenAI 透露,目前仅获准向少数选定合作伙伴开放 APICodex 接口,且这一安排直接来自美国政府指令。此前,美国政府曾将 Anthropic 同属 Mythos 级别的 Fable 5 模型撤出市场。OpenAI 在声明中直言:“我们不认为这种政府访问流程应成为长期默认模式,它让最优秀的工具远离了用户、开发者、企业和网络防御者。”

此次发布还引入了新的分层命名体系:Sol 为旗舰,Terra 以一半成本对标 GPT-5.5 性能,Luna 为入门选项。模型支持 “max” 深度推理模式与可并行调用子智能体的 “ultra” 任务模式。定价方面,Sol 每百万 token 输入收费 5 美元、输出 30 美元;Terra 为 2.5 美元与 15 美元;Luna 为 1 美元与 6 美元。OpenAI 同步改进了提示缓存机制,设定最低 30 分钟缓存生命周期,缓存写入价格为常规输入的 1.25 倍,读取仍享九折优惠。由于 Sol 在多项任务中所需 token 更少,其实际单次任务成本可能低于前代,这在一定程度上回应了近期业界对模型持续涨价的批评,也间接指向与中国低价模型的竞争压力。

按计划,Sol 将于 7 月在芯片厂商 Cerebras 的平台上以最高每秒 750 token 的速度上线。但在那之前,围绕前沿模型访问权的政策博弈,可能比技术指标更早决定其市场渗透节奏。

从产业视角看,此事折射出 AI 发展中的深层张力:一方面,模型能力正从通用对话向智能体执行与安全攻防快速延伸,算力效率成为新的竞争维度;另一方面,主权国家以安全为由对最先进模型施加出口管制或部署限制,正在重塑全球 AI 供应链。对投资者而言,这意味着模型公司的商业化路径不再仅由技术领先性决定,合规成本、地缘政治因素与替代性算力方案(如 Cerebras)的战略价值正在上升。而开发者社区则面临两难——最先进的工具近在眼前,却因政策门槛而无法调用,这或将加速开源替代与区域化模型生态的崛起。