OpenAI 在一份聚焦基因組學任務的基準測試論文中,首次披露了 GPT-5.6 Pro 系列的三款變體,打破了 ChatGPT Pro 自推出以來一直維持的單一頂級模型策略。論文結果表格中出現了 Luna ProTerra ProSol Pro 三行,均標註為“Pro(Extended)”運行模式,與標準版 GPT-5.6 的 Luna、Terra、Sol 形成對應。

這一變化的核心在於,Pro 不再只是一個價格更高、能力更強的單一選項,而是可能演變為一個三模型陣容。根據論文數據,Sol Pro 在 129 項多步驟分析任務中取得了 31.5% 的通過率,在所有 60 個受測模型中排名第一,領先標準版 Sol 的 28.7%,並大幅超越非 GPT 系最強模型 Claude Opus 4.8 的 16.0%。通過率衡量的是模型無差錯完成全部分析並給出正確答案的比例。

三款 Pro 變體之間的性能梯度也值得關注。Luna Pro 的通過率為 23.6%,較標準版 Luna 的 16.5% 提升了 7.1 個百分點,增幅最大;Terra Pro 達到 28.5%,提升 5.2 個百分點,幾乎追平標準版 Sol 的 28.7%。Sol Pro 的增幅最小,僅比標準版 Sol 高出 2.8 個百分點。這表明,額外計算資源對較弱層級的提升更為顯著,高吞吐定位的 Terra Pro 在獲得 Pro 級算力後,已接近標準旗艦的推理水平。

OpenAI 在 6 月底正式發佈 GPT-5.6 時,將模型劃分為三個定位清晰的層級:Sol 負責最困難的任務,Terra 面向高吞吐的企業工作負載,Luna 則用於更快、更經濟的日常查詢。但當時並未提及 Pro 版本。此次論文是首次在公開文檔中出現 Pro 變體的具體命名與性能數據。

從產品邏輯看,這一拆分意味著 Pro 用戶未來可能不再面對一個“什麼都最強但成本也最高”的單一選項,而是可以根據任務需求在速度、吞吐量和極致推理能力之間做出選擇。對於需要處理大量併發請求的企業客戶而言,Terra Pro 以接近旗艦的推理質量提供更高的吞吐效率,可能比直接選用 Sol Pro 更具成本效益。

不過,論文並未明確這套分級 Pro 系列是否會實際落地到 ChatGPT 的商業產品中。目前所有信息僅來自基準測試表格,OpenAI 也未公佈 Pro 運行的 token 消耗數據。相比之下,標準版 Sol 在最高推理設置下的平均 token 使用量約為 33,200 個,但論文作者稱 Pro 運行缺乏可比的 token 統計,外界普遍認為 OpenAI 有意不公開這部分計算成本。

如果這一 Pro 多選策略最終進入 ChatGPT 訂閱體系,它將是 ChatGPT Pro 自推出以來最重大的結構調整。過去 Pro 的賣點在於“始終使用最好的模型”,而未來的 Pro 可能需要用戶在“最好”與“最合適”之間做出權衡。對於 AI 產業而言,這種分層也反映出前沿模型在商業化過程中正從單純追求基準分數,轉向更精細地匹配不同場景的算力預算與性能需求。