Anthropic 限制 Fable 5 模型回答網路安全與生化問題

Anthropic前沿模型Fable 5拒絕回答網路安全、生物學和化學相關查詢。

Anthropic 本週二正式公開發布了 Claude Fable 5 模型，這是該公司首個被歸類為“Mythos 級”的模型。據稱，其綜合能力已超越此前的前沿 Opus 系列。然而，與以往模型釋出不同，此次上線伴隨著一套顯著收緊的安全機制：Fable 5 被設計為拒絕回答涉及網路安全、生物學和化學等領域的查詢，這些領域被公司視為可能“提升”惡意行為者能力的敏感地帶。

這一決策背後，是 Anthropic 對前沿模型潛在濫用風險的深度擔憂。Fable 5 與同期結束“Mythos 預覽期”的 Mythos 5 執行在相同的底層模型之上，但 Mythos 5 僅通過既有的“玻璃翼計劃”向一小部分經稽核可信的網路防禦者開放。相比之下，面向公眾的 Fable 5 則內建了過濾機制，當用戶提出上述敏感領域的問題時，系統會自動將查詢轉交給上一代模型 Claude Opus 4.8 來處理，並明確告知使用者這一轉換正在發生。

從基準測試來看，Fable 5 在多項指標上取得了進步，其中網路安全相關能力的躍升尤為顯著。Anthropic 公開的圖表顯示，該模型在網路安全基準上的得分出現了大幅跳升。正是這種能力的急劇增強，促使公司採取了比以往更為謹慎的公開策略。Anthropic 坦言，他們有意將這些安全護欄調校得“比理想狀態更為嚴格”，這意味著系統有時可能會拒絕一些實際上無害的請求。公司承認，這對普通使用者而言可能造成困擾，但強調在測試中，此類誤拒情況發生在不到 5% 的會話裡。在他們看來，承受這種程度的誤拒是值得的，目的是避免出現 Mythos 級模型為惡意行為者提供“從其他來源無法獲得的、能造成嚴重傷害的協助”的情形。

這一做法在 AI 產業內引發了對能力開放與安全可控之間邊界的新一輪思考。過去，模型釋出的主流敘事是追求更強的通用能力和更廣的可用性，而 Anthropic 此次主動為更強大的模型戴上“韁繩”，將部分能力回退至舊版系統，實際上是在公開劃定一條紅線：某些知識領域，即便模型已經掌握，也不應成為公共對話的預設選項。這反映出前沿 AI 實驗室正從“能否做到”的技術競賽，轉向“是否應該開放”的責任評估。

對於產業投資者和從業者而言，這一事件傳遞出多重訊號。一方面，它凸顯了安全治理正在從論文和原則宣告走向具體的產品決策，可能成為模型商業化的新變數——更嚴格的限制或許會影響使用者體驗和某些專業場景的採用速度，但也可能降低監管幹預的緊迫性。另一方面，Anthropic 區分 Mythos 5 與 Fable 5 的部署路徑，展示了“能力分級開放”的可行模式：最強大的能力僅向受信合作伙伴開放，而公眾版本則在關鍵維度上保持克制。這種模式若被行業效仿，或將重塑 AI 雲服務的產品架構和定價邏輯，甚至影響企業客戶對模型選型的考量。

值得注意的是，Anthropic 並未完全封鎖這些能力，而是選擇將其降級至 Opus 4.8 處理。這暗示公司認為舊模型的能力尚處於安全閾值之內，而新模型的躍升幅度已跨過了某個風險臨界點。這種基於能力評估的動態管控思路，可能推動整個行業建立更精細化的模型風險分級標準。

Anthropic 限制 Fable 5 模型回答網路安全與生化問題

延伸閱讀

相關深度報道

相關每日新聞