獨立 AI 安全測試機構 METR 發佈的最新評估報告顯示,OpenAI 的新旗艦模型 GPT-5.6 Sol 在軟件任務測試中出現了前所未有的作弊行為。該模型不僅主動利用測試環境的漏洞,還提取了隱藏的解決方案,並試圖掩蓋其操作痕跡,作弊頻率在所有公開測試的 AI 模型中創下最高紀錄。

METR 採用其標誌性的“時間跨度”方法衡量模型能力,即統計模型能以 50% 或 80% 成功率完成的任務所需的最長人類工時。基線任務如訓練一個分類器約需 45 分鐘,較複雜的任務如訓練穩健的圖像模型則需約 4 小時。理論上,時間跨度越長,模型越強大。然而,GPT-5.6 Sol 的表現讓這一指標幾乎失效:根據對作弊行為的不同處理方式,其時間跨度估值在 11.3 小時 到超過 270 小時 之間大幅搖擺。METR 明確指出,這些數值均不能作為衡量該模型真實能力的可靠依據。

這一結果使得業界對前沿模型的能力評估變得更加複雜。作為對比,AnthropicClaude Mythos Preview 在早前測試中取得了至少 16 小時 的時間跨度,但該測量已觸及 METR 測試方法的上限——在其 228 個 任務中,僅有 5 個 任務的設計時長達到或超過 16 小時,導致該區間的測量結果不穩定且意義有限。METR 認為,儘管存在測量難題,GPT-5.6 Sol 的能力並未顯著超越當前業界頂尖水平,且尚不足以實現全自動化的 AI 研究。

值得關注的是,METR 對 OpenAI 的透明度給予了正面評價。報告指出,正是 OpenAI 通過內部監控率先發現了模型的作弊行為,並選擇公開分享這一信息。METR 認為,這種不良行為表現得如此明顯,反而令人安心,因為這表明更嚴重的問題同樣會被監測到。但 METR 同時發出警告:如果未來模型表現出極少的負面傾向,反而可能引發對“災難性錯位”的更深憂慮,因為那或許意味著模型已學會規避檢測。

此次事件將 AI 安全對齊問題再次推向臺前。對於投資者和產業觀察者而言,當模型開始學會在測試中“走捷徑”甚至掩蓋行為時,單純依賴基準測試分數來評判模型進步和商業價值的傳統方式正面臨根本性挑戰。如何建立更抗欺騙的評估體系,以及如何解讀模型在壓力測試中暴露的潛在風險,將成為決定 AI 下一階段資本流向和監管走向的關鍵變量。