OpenAI 在一份聚焦基因组学任务的基准测试论文中,首次披露了 GPT-5.6 Pro 系列的三款变体,打破了 ChatGPT Pro 自推出以来一直维持的单一顶级模型策略。论文结果表格中出现了 Luna Pro、Terra Pro 和 Sol Pro 三行,均标注为“Pro(Extended)”运行模式,与标准版 GPT-5.6 的 Luna、Terra、Sol 形成对应。
这一变化的核心在于,Pro 不再只是一个价格更高、能力更强的单一选项,而是可能演变为一个三模型阵容。根据论文数据,Sol Pro 在 129 项多步骤分析任务中取得了 31.5% 的通过率,在所有 60 个受测模型中排名第一,领先标准版 Sol 的 28.7%,并大幅超越非 GPT 系最强模型 Claude Opus 4.8 的 16.0%。通过率衡量的是模型无差错完成全部分析并给出正确答案的比例。
三款 Pro 变体之间的性能梯度也值得关注。Luna Pro 的通过率为 23.6%,较标准版 Luna 的 16.5% 提升了 7.1 个百分点,增幅最大;Terra Pro 达到 28.5%,提升 5.2 个百分点,几乎追平标准版 Sol 的 28.7%。Sol Pro 的增幅最小,仅比标准版 Sol 高出 2.8 个百分点。这表明,额外计算资源对较弱层级的提升更为显著,高吞吐定位的 Terra Pro 在获得 Pro 级算力后,已接近标准旗舰的推理水平。
OpenAI 在 6 月底正式发布 GPT-5.6 时,将模型划分为三个定位清晰的层级:Sol 负责最困难的任务,Terra 面向高吞吐的企业工作负载,Luna 则用于更快、更经济的日常查询。但当时并未提及 Pro 版本。此次论文是首次在公开文档中出现 Pro 变体的具体命名与性能数据。
从产品逻辑看,这一拆分意味着 Pro 用户未来可能不再面对一个“什么都最强但成本也最高”的单一选项,而是可以根据任务需求在速度、吞吐量和极致推理能力之间做出选择。对于需要处理大量并发请求的企业客户而言,Terra Pro 以接近旗舰的推理质量提供更高的吞吐效率,可能比直接选用 Sol Pro 更具成本效益。
不过,论文并未明确这套分级 Pro 系列是否会实际落地到 ChatGPT 的商业产品中。目前所有信息仅来自基准测试表格,OpenAI 也未公布 Pro 运行的 token 消耗数据。相比之下,标准版 Sol 在最高推理设置下的平均 token 使用量约为 33,200 个,但论文作者称 Pro 运行缺乏可比的 token 统计,外界普遍认为 OpenAI 有意不公开这部分计算成本。
如果这一 Pro 多选策略最终进入 ChatGPT 订阅体系,它将是 ChatGPT Pro 自推出以来最重大的结构调整。过去 Pro 的卖点在于“始终使用最好的模型”,而未来的 Pro 可能需要用户在“最好”与“最合适”之间做出权衡。对于 AI 产业而言,这种分层也反映出前沿模型在商业化过程中正从单纯追求基准分数,转向更精细地匹配不同场景的算力预算与性能需求。