Anthropic 本週二正式公開發布了 Claude Fable 5 模型,這是該公司首個被歸類為“Mythos 級”的模型。據稱,其綜合能力已超越此前的前沿 Opus 系列。然而,與以往模型發佈不同,此次上線伴隨著一套顯著收緊的安全機制:Fable 5 被設計為拒絕回答涉及網絡安全、生物學和化學等領域的查詢,這些領域被公司視為可能“提升”惡意行為者能力的敏感地帶。
這一決策背後,是 Anthropic 對前沿模型潛在濫用風險的深度擔憂。Fable 5 與同期結束“Mythos 預覽期”的 Mythos 5 運行在相同的底層模型之上,但 Mythos 5 僅通過既有的“玻璃翼計劃”向一小部分經審核可信的網絡防禦者開放。相比之下,面向公眾的 Fable 5 則內置了過濾機制,當用戶提出上述敏感領域的問題時,系統會自動將查詢轉交給上一代模型 Claude Opus 4.8 來處理,並明確告知用戶這一轉換正在發生。
從基準測試來看,Fable 5 在多項指標上取得了進步,其中網絡安全相關能力的躍升尤為顯著。Anthropic 公開的圖表顯示,該模型在網絡安全基準上的得分出現了大幅跳升。正是這種能力的急劇增強,促使公司採取了比以往更為謹慎的公開策略。Anthropic 坦言,他們有意將這些安全護欄調校得“比理想狀態更為嚴格”,這意味著系統有時可能會拒絕一些實際上無害的請求。公司承認,這對普通用戶而言可能造成困擾,但強調在測試中,此類誤拒情況發生在不到 5% 的會話裡。在他們看來,承受這種程度的誤拒是值得的,目的是避免出現 Mythos 級模型為惡意行為者提供“從其他來源無法獲得的、能造成嚴重傷害的協助”的情形。
這一做法在 AI 產業內引發了對能力開放與安全可控之間邊界的新一輪思考。過去,模型發佈的主流敘事是追求更強的通用能力和更廣的可用性,而 Anthropic 此次主動為更強大的模型戴上“韁繩”,將部分能力回退至舊版系統,實際上是在公開劃定一條紅線:某些知識領域,即便模型已經掌握,也不應成為公共對話的默認選項。這反映出前沿 AI 實驗室正從“能否做到”的技術競賽,轉向“是否應該開放”的責任評估。
對於產業投資者和從業者而言,這一事件傳遞出多重信號。一方面,它凸顯了安全治理正在從論文和原則聲明走向具體的產品決策,可能成為模型商業化的新變量——更嚴格的限制或許會影響用戶體驗和某些專業場景的採用速度,但也可能降低監管幹預的緊迫性。另一方面,Anthropic 區分 Mythos 5 與 Fable 5 的部署路徑,展示了“能力分級開放”的可行模式:最強大的能力僅向受信合作伙伴開放,而公眾版本則在關鍵維度上保持克制。這種模式若被行業效仿,或將重塑 AI 雲服務的產品架構和定價邏輯,甚至影響企業客戶對模型選型的考量。
值得注意的是,Anthropic 並未完全封鎖這些能力,而是選擇將其降級至 Opus 4.8 處理。這暗示公司認為舊模型的能力尚處於安全閾值之內,而新模型的躍升幅度已跨過了某個風險臨界點。這種基於能力評估的動態管控思路,可能推動整個行業建立更精細化的模型風險分級標準。