OpenAI 正式發佈新一代模型 GPT-5.6,旗艦版本 Sol 在關鍵基準測試中展現出對 Anthropic Claude Mythos 5 的競爭力,但發佈節奏卻被美國政府的一紙限制令打亂了。
OpenAI 聲明稱,Sol 在智能體編碼測試 Terminal-Bench 2.1 上取得 88.8% 的得分,其增強模式 Sol Ultra 更達到 91.9%,高於 Claude Mythos 5 的 88%。在衡量 AI 挖掘真實安全漏洞能力的 ExploitBench 上,Sol 以約 15 萬輸出 token 的用量追平了 Mythos Preview 的表現,而 Mythos 5 雖在成功率上領先,卻未提供可比的效率數據。OpenAI 強調,Sol 是其迄今能力最強的網絡安全模型,但定位為防禦者,在自主完成完整攻擊鏈方面仍低於內部 “網絡關鍵” 風險閾值。
與性能數據形成反差的是嚴苛的訪問限制。OpenAI 透露,目前僅獲准向少數選定合作伙伴開放 API 和 Codex 接口,且這一安排直接來自美國政府指令。此前,美國政府曾將 Anthropic 同屬 Mythos 級別的 Fable 5 模型撤出市場。OpenAI 在聲明中直言:“我們不認為這種政府訪問流程應成為長期默認模式,它讓最優秀的工具遠離了用戶、開發者、企業和網絡防禦者。”
此次發佈還引入了新的分層命名體系:Sol 為旗艦,Terra 以一半成本對標 GPT-5.5 性能,Luna 為入門選項。模型支持 “max” 深度推理模式與可並行調用子智能體的 “ultra” 任務模式。定價方面,Sol 每百萬 token 輸入收費 5 美元、輸出 30 美元;Terra 為 2.5 美元與 15 美元;Luna 為 1 美元與 6 美元。OpenAI 同步改進了提示緩存機制,設定最低 30 分鐘緩存生命週期,緩存寫入價格為常規輸入的 1.25 倍,讀取仍享九折優惠。由於 Sol 在多項任務中所需 token 更少,其實際單次任務成本可能低於前代,這在一定程度上回應了近期業界對模型持續漲價的批評,也間接指向與中國低價模型的競爭壓力。
按計劃,Sol 將於 7 月在芯片廠商 Cerebras 的平臺上以最高每秒 750 token 的速度上線。但在那之前,圍繞前沿模型訪問權的政策博弈,可能比技術指標更早決定其市場滲透節奏。
從產業視角看,此事折射出 AI 發展中的深層張力:一方面,模型能力正從通用對話向智能體執行與安全攻防快速延伸,算力效率成為新的競爭維度;另一方面,主權國家以安全為由對最先進模型施加出口管制或部署限制,正在重塑全球 AI 供應鏈。對投資者而言,這意味著模型公司的商業化路徑不再僅由技術領先性決定,合規成本、地緣政治因素與替代性算力方案(如 Cerebras)的戰略價值正在上升。而開發者社區則面臨兩難——最先進的工具近在眼前,卻因政策門檻而無法調用,這或將加速開源替代與區域化模型生態的崛起。