OpenAI发布GPT-5.6系列，以有限预览形式开放三款模型

OpenAI推出GPT-5.6系列，含Sol、Terra、Luna三款模型，仅限预览未全面开放。

OpenAI正式发布了GPT-5.6系列模型，但并未选择全面铺开，而是以有限预览的形式先行试水。此次共推出三款以天体命名的型号：旗舰模型Sol（太阳）被定位为OpenAI目前最强的模型；Terra（地球）面向日常工作场景，性能可与GPT-5.5竞争，价格却便宜一半；Luna（月亮）则主打速度和低成本，是整个系列中最便宜的选项。OpenAI借此机会重新梳理了命名体系，用数字表示代际，用Sol、Terra、Luna区分能力层级，试图让模型产品线更清晰。

在能力展示上，GPT-5.6 Sol聚焦于编程、生物信息学和网络安全三个复杂领域。在命令行工作流基准测试Terminal-Bench 2.1上，Sol Ultra版本得分91.9%，Sol标准版得分88.8%，均超越了GPT-5.5的88.0%以及Claude Mythos 5的84.3%等竞品。OpenAI将这种处理长链条、强依赖上下文任务的能力称为agentic capabilities，其中Ultra模式能调度多个子Agent拆分复杂任务并汇总结果。在生物方向的GeneBench v1评测中，Sol相比GPT-5.5取得了更强结果，且消耗的输出tokens更少，这对科研场景的成本效率意义重大。

网络安全是此次发布最敏感的部分。OpenAI称Sol是其迄今最强的网络安全模型，在ExploitBench上表现接近Mythos Preview，但仅用了约三分之一的输出tokens。不过，官方明确踩下刹车，强调Sol更擅长发现和修复漏洞，尚不能稳定完成端到端攻击，在涉及Chromium和Firefox的评估中未自主生成可运行的完整攻击链。基于此，OpenAI判断GPT-5.6 Sol尚未跨过其Preparedness Framework中的网络安全关键风险阈值。这种谨慎表态，很大程度上是为了避免重蹈此前行业炒作叙事带来的压力。

安全防护在此次发布中占据了罕见篇幅。OpenAI为三款模型配置了分级防护体系，能力越强防护越严，涵盖模型拒答、实时分类器检测、账号审查等环节，形成一套分层安全栈。在自动化红队测试上，OpenAI投入了超过70万A100等效GPU小时来寻找通用越狱漏洞，并辅以专家人工测试。定价方面，按每百万tokens计费，Sol输入5美元、输出30美元；Terra输入2.5美元、输出15美元；Luna输入1美元、输出6美元。新引入的prompt caching机制支持显式缓存断点，缓存读取享受90%折扣。此外，GPT-5.6 Sol将于7月登陆Cerebras，最高速度可达每秒750 tokens，初期同样仅向部分客户开放。

GPT-5.6的开放方式折射出前沿AI模型发布节奏的深刻变化。OpenAI在官方博客中披露，发布前已向美国政府展示模型能力与计划，并根据政府要求以有限预览形式上线，首批仅向约20家可信合作伙伴开放，且这些合作伙伴的信息已与政府共享。据《华盛顿邮报》报道，美国联邦政府将审核哪些公司可以访问OpenAI的最新技术，目前个人用户没有申请通道。彭博社则称，其中一个入口可能是亚马逊的Bedrock平台。OpenAI虽表态不认为政府参与访问流程应成为长期默认机制，但仍选择接受这一安排，希望借此争取更广泛开放，并与美国政府共同制定可复制的模型发布流程。

这一事件表明，当模型在编程、网络安全和生物等方向跨过新的能力区间后，发布节奏已不再仅仅是公司产品策略问题，而是被纳入国家安全和出口控制讨论。两周前，Anthropic就因美国政府要求停用了其最强模型之一Fable 5，理由同样是国家安全。对OpenAI而言，GPT-5.6既是一次旗舰模型预览，也是一次政策试探——它需要在证明模型足够强、安全体系足够严密的同时，在美国政府审查和商业开放之间找到可执行路径。这种复杂的发布流程，预示着前沿AI未来的走向：当模型能力逼近关键阈值，使用资格与使用方式，将变得比性能本身更受关注。

OpenAI发布GPT-5.6系列，以有限预览形式开放三款模型

延伸阅读

相关深度报道

相关每日新闻