在經歷為期兩週的出口管制後,Anthropic 的第二強大 AI 模型 Fable 5 已獲美國政府批准,重新面向全球用戶開放。從即日起,用戶可通過 Claude 平臺、Claude.ai、Claude Code 及 Claude Cowork 訪問該模型。在 7 月 7 日之前,Pro、Max、Team 及部分 Enterprise 計劃用戶可在每週使用限額的 50% 範圍內使用;此後將轉為通過使用量積分計費。AWS、Google Cloud 和 Microsoft Foundry 上的訪問權限也將“儘快”恢復。
此次禁令的起因是亞馬遜研究人員發現的一種越獄方法,能夠繞過 Fable 5 的安全護欄。模型在被攻擊後識別出了多個軟件漏洞,並在一次案例中生成了展示如何利用其中一個漏洞的代碼。這一發現觸發了美國政府的快速反應,導致 Fable 5 的全球交付被暫停。
Anthropic 在調查後確認,該漏洞並非 Fable 5 獨有。許多能力更弱的模型,包括 Claude Opus 4.8、GPT-5.5 和 Kimi K2.7,都能發現相同的漏洞。對於具體的漏洞利用演示,甚至像 Claude Haiku 4.5 這樣的小模型也產生了相同結果。Anthropic 將此定性為一次僅涉及常規防禦性網絡安全工作的邊緣案例。
為應對這一問題,Anthropic 訓練了一個改進的安全分類器,能在超過 99% 的情況下攔截亞馬遜報告中描述的技術。當請求被攔截時,用戶會收到通知,且該請求會被路由至較舊的 Opus 4.8 模型處理。然而,這一修復方案帶來了明顯的副作用:在日常編碼和調試過程中,新分類器會更頻繁地將無害請求誤判為危險並加以攔截。事實上,在 Fable 5 首次發佈時,用戶就曾抱怨該模型限制過嚴。Anthropic 發佈的示意圖顯示,Fable 5 的安全邊際比標準護欄寬得多,雖然攔截了更多無害請求,但也更少讓危險請求成為漏網之魚。
Anthropic 坦承,製造一個完全不受越獄影響的 AI 模型“可能是不可能的”。這一觀點在 Fable 5 發佈前就已是業內共識。為此,公司正推動建立一套行業共享標準,用於評估越獄嚴重性並觸發相應對策。Anthropic 表示,正與 亞馬遜、微軟、谷歌及其他 Glasswing 計劃合作伙伴共同構建這一框架。此外,公司還成立了一個專門團隊,對越獄提交渠道進行 7x24 小時監控,並啟動了新的 HackerOne 計劃,供安全研究人員報告 Fable 5 的潛在網絡越獄漏洞。
值得注意的是,Fable 5 的迴歸並不涉及同一基礎模型的限制較少版本 Mythos 5。該模型仍僅限於在 6 月 26 日獲得政府批准的一組美國組織使用。Anthropic 表示,仍在與政府合作,以擴大 Glasswing 計劃中更多合作伙伴的訪問權限,但歐盟是否會加入仍是未知數。
在更深層的產業意義上,此事件反映了前沿 AI 模型發佈正面臨日益複雜的監管環境。Anthropic 正擴大與美國政府的合作,並做出多項承諾:政府合作伙伴將獲得在安全敏感領域有進步能力的模型的預發佈訪問權;發現的越獄或濫用模式將迅速共享;公司將投入專門資源和大量算力用於聯合研究;並幫助構建適用於所有前沿模型開發者的共享行業標準。Anthropic 希望將這些寫入“強有力的法規”,並平等適用於每一家前沿模型開發商,認為“政府對 AI 發佈的介入需要一個持久、透明的流程,讓網絡防禦者和其他相關方對強大模型的訪問有確定性”。
對於 AI 產業投資者而言,此事件不僅是一次單一產品的供應中斷與恢復,更揭示了模型層公司未來可能面臨的合規成本上升、發佈週期延遲以及為滿足安全要求而犧牲部分用戶體驗的長期趨勢。如何在創新速度與安全監管之間找到平衡,將成為決定該領域競爭格局的關鍵變量。