OpenAI正式发布了GPT-5.6系列模型,但并未选择全面铺开,而是以有限预览的形式先行试水。此次共推出三款以天体命名的型号:旗舰模型Sol(太阳)被定位为OpenAI目前最强的模型;Terra(地球)面向日常工作场景,性能可与GPT-5.5竞争,价格却便宜一半;Luna(月亮)则主打速度和低成本,是整个系列中最便宜的选项。OpenAI借此机会重新梳理了命名体系,用数字表示代际,用Sol、Terra、Luna区分能力层级,试图让模型产品线更清晰。

在能力展示上,GPT-5.6 Sol聚焦于编程、生物信息学和网络安全三个复杂领域。在命令行工作流基准测试Terminal-Bench 2.1上,Sol Ultra版本得分91.9%,Sol标准版得分88.8%,均超越了GPT-5.5的88.0%以及Claude Mythos 5的84.3%等竞品。OpenAI将这种处理长链条、强依赖上下文任务的能力称为agentic capabilities,其中Ultra模式能调度多个子Agent拆分复杂任务并汇总结果。在生物方向的GeneBench v1评测中,Sol相比GPT-5.5取得了更强结果,且消耗的输出tokens更少,这对科研场景的成本效率意义重大。

网络安全是此次发布最敏感的部分。OpenAI称Sol是其迄今最强的网络安全模型,在ExploitBench上表现接近Mythos Preview,但仅用了约三分之一的输出tokens。不过,官方明确踩下刹车,强调Sol更擅长发现和修复漏洞,尚不能稳定完成端到端攻击,在涉及ChromiumFirefox的评估中未自主生成可运行的完整攻击链。基于此,OpenAI判断GPT-5.6 Sol尚未跨过其Preparedness Framework中的网络安全关键风险阈值。这种谨慎表态,很大程度上是为了避免重蹈此前行业炒作叙事带来的压力。

安全防护在此次发布中占据了罕见篇幅。OpenAI为三款模型配置了分级防护体系,能力越强防护越严,涵盖模型拒答、实时分类器检测、账号审查等环节,形成一套分层安全栈。在自动化红队测试上,OpenAI投入了超过70万A100等效GPU小时来寻找通用越狱漏洞,并辅以专家人工测试。定价方面,按每百万tokens计费,Sol输入5美元、输出30美元;Terra输入2.5美元、输出15美元;Luna输入1美元、输出6美元。新引入的prompt caching机制支持显式缓存断点,缓存读取享受90%折扣。此外,GPT-5.6 Sol将于7月登陆Cerebras,最高速度可达每秒750 tokens,初期同样仅向部分客户开放。

GPT-5.6的开放方式折射出前沿AI模型发布节奏的深刻变化。OpenAI在官方博客中披露,发布前已向美国政府展示模型能力与计划,并根据政府要求以有限预览形式上线,首批仅向约20家可信合作伙伴开放,且这些合作伙伴的信息已与政府共享。据《华盛顿邮报》报道,美国联邦政府将审核哪些公司可以访问OpenAI的最新技术,目前个人用户没有申请通道。彭博社则称,其中一个入口可能是亚马逊Bedrock平台。OpenAI虽表态不认为政府参与访问流程应成为长期默认机制,但仍选择接受这一安排,希望借此争取更广泛开放,并与美国政府共同制定可复制的模型发布流程。

这一事件表明,当模型在编程、网络安全和生物等方向跨过新的能力区间后,发布节奏已不再仅仅是公司产品策略问题,而是被纳入国家安全和出口控制讨论。两周前,Anthropic就因美国政府要求停用了其最强模型之一Fable 5,理由同样是国家安全。对OpenAI而言,GPT-5.6既是一次旗舰模型预览,也是一次政策试探——它需要在证明模型足够强、安全体系足够严密的同时,在美国政府审查和商业开放之间找到可执行路径。这种复杂的发布流程,预示着前沿AI未来的走向:当模型能力逼近关键阈值,使用资格与使用方式,将变得比性能本身更受关注。