OpenAI正式發佈了GPT-5.6系列模型,但並未選擇全面鋪開,而是以有限預覽的形式先行試水。此次共推出三款以天體命名的型號:旗艦模型Sol(太陽)被定位為OpenAI目前最強的模型;Terra(地球)面向日常工作場景,性能可與GPT-5.5競爭,價格卻便宜一半;Luna(月亮)則主打速度和低成本,是整個系列中最便宜的選項。OpenAI藉此機會重新梳理了命名體系,用數字表示代際,用Sol、Terra、Luna區分能力層級,試圖讓模型產品線更清晰。
在能力展示上,GPT-5.6 Sol聚焦於編程、生物信息學和網絡安全三個複雜領域。在命令行工作流基準測試Terminal-Bench 2.1上,Sol Ultra版本得分91.9%,Sol標準版得分88.8%,均超越了GPT-5.5的88.0%以及Claude Mythos 5的84.3%等競品。OpenAI將這種處理長鏈條、強依賴上下文任務的能力稱為agentic capabilities,其中Ultra模式能調度多個子Agent拆分複雜任務並彙總結果。在生物方向的GeneBench v1評測中,Sol相比GPT-5.5取得了更強結果,且消耗的輸出tokens更少,這對科研場景的成本效率意義重大。
網絡安全是此次發佈最敏感的部分。OpenAI稱Sol是其迄今最強的網絡安全模型,在ExploitBench上表現接近Mythos Preview,但僅用了約三分之一的輸出tokens。不過,官方明確踩下剎車,強調Sol更擅長髮現和修復漏洞,尚不能穩定完成端到端攻擊,在涉及Chromium和Firefox的評估中未自主生成可運行的完整攻擊鏈。基於此,OpenAI判斷GPT-5.6 Sol尚未跨過其Preparedness Framework中的網絡安全關鍵風險閾值。這種謹慎表態,很大程度上是為了避免重蹈此前行業炒作敘事帶來的壓力。
安全防護在此次發佈中佔據了罕見篇幅。OpenAI為三款模型配置了分級防護體系,能力越強防護越嚴,涵蓋模型拒答、實時分類器檢測、賬號審查等環節,形成一套分層安全棧。在自動化紅隊測試上,OpenAI投入了超過70萬A100等效GPU小時來尋找通用越獄漏洞,並輔以專家人工測試。定價方面,按每百萬tokens計費,Sol輸入5美元、輸出30美元;Terra輸入2.5美元、輸出15美元;Luna輸入1美元、輸出6美元。新引入的prompt caching機制支持顯式緩存斷點,緩存讀取享受90%折扣。此外,GPT-5.6 Sol將於7月登陸Cerebras,最高速度可達每秒750 tokens,初期同樣僅向部分客戶開放。
GPT-5.6的開放方式折射出前沿AI模型發佈節奏的深刻變化。OpenAI在官方博客中披露,發佈前已向美國政府展示模型能力與計劃,並根據政府要求以有限預覽形式上線,首批僅向約20家可信合作伙伴開放,且這些合作伙伴的信息已與政府共享。據《華盛頓郵報》報道,美國聯邦政府將審核哪些公司可以訪問OpenAI的最新技術,目前個人用戶沒有申請通道。彭博社則稱,其中一個入口可能是亞馬遜的Bedrock平臺。OpenAI雖表態不認為政府參與訪問流程應成為長期默認機制,但仍選擇接受這一安排,希望藉此爭取更廣泛開放,並與美國政府共同制定可複製的模型發佈流程。
這一事件表明,當模型在編程、網絡安全和生物等方向跨過新的能力區間後,發佈節奏已不再僅僅是公司產品策略問題,而是被納入國家安全和出口控制討論。兩週前,Anthropic就因美國政府要求停用了其最強模型之一Fable 5,理由同樣是國家安全。對OpenAI而言,GPT-5.6既是一次旗艦模型預覽,也是一次政策試探——它需要在證明模型足夠強、安全體系足夠嚴密的同時,在美國政府審查和商業開放之間找到可執行路徑。這種複雜的發佈流程,預示著前沿AI未來的走向:當模型能力逼近關鍵閾值,使用資格與使用方式,將變得比性能本身更受關注。