Anthropic正式發佈了其第五代AI模型家族的兩款產品:面向通用場景的Claude Fable 5,以及目前仍處於受限訪問狀態的Claude Mythos 5。這兩款模型共享同一基礎架構,但在安全限制和應用定位上截然不同。Fable 5配備了保守的安全護欄,用於常規商業與開發任務;Mythos 5則在網絡安全等專業領域移除了這些限制,僅通過“玻璃翼計劃”向美國政府及少數合作伙伴開放。
在性能層面,Anthropic宣稱Fable 5在幾乎所有公開基準測試中均取得了領先成績,尤其體現在長週期、複雜任務上。在衡量真實軟件工程能力的SWE-Bench Pro基準中,Fable 5得分80.3%,遠高於Claude Opus 4.8的69.2%、GPT 5.5的58.6%和Gemini 3.1 Pro的54.2%。在更嚴苛的Cognition FrontierCode基準中,Fable 5拿到29.3%,而Opus 4.8僅為13.4%,GPT 5.5更是隻有5.7%。支付處理商Stripe的實際使用案例進一步印證了這些數字:在一個包含5000萬行Ruby代碼的代碼庫中,Fable 5僅用一天就完成了一項原本需要整個團隊兩個多月才能搞定的遷移任務。
除了編程,Fable 5在知識工作和視覺理解上也展現出明顯進步。在Hebbia金融基準測試中,該模型在文檔推理、圖表解讀等任務上取得了所有模型中的最高分。交易集團IMC表示,Fable 5幾乎通過了他們所有的交易分析評估。視覺方面,Fable 5能從複雜的科學插圖中提取精確數據,甚至僅憑截圖就能重建一個網頁應用的全部源代碼。在一次演示中,它僅依靠遊戲截圖就通關了《寶可夢 火紅》,而早期模型需要藉助複雜的外部輔助框架和額外地圖數據才能做到。
Mythos 5的能力則指向更前沿的科研領域。Anthropic內部的蛋白質設計專家指出,Mythos 5將藥物設計流程的某些環節加速了10倍。在一次測試中,模型在僅配備蛋白質設計和生物信息學工具、完全沒有人類干預的情況下,自主完成了從選擇結合位點、運行設計工具到修正錯誤的全部步驟,在14個蛋白質靶點中有9個產生了強候選藥物分子,這些候選分子目前已進入研究階段。更引人注目的是,Anthropic聲稱Mythos 5是首個能持續產出新穎且令人信服的科學假設的模型。在盲測中,Anthropic的科學家在約80%的情況下更偏好Mythos 5提出的分子生物學假設,其中一項關於大腸桿菌蛋白的新機制假設已得到獨立研究的支持。
在基因組學領域,Mythos 5自主運行了超過一週,收集了來自138個物種的數百萬個單細胞數據,隨後自行設計並訓練了一個機器學習模型,用於識別遠緣物種中功能相同的細胞。據稱,其結果優於近期發表在《科學》雜誌上的一個模型,而模型體積卻小了100倍。Anthropic計劃在未來幾個月內正式發表這些結果。
安全與訪問策略是此次發佈中不可忽視的另一面。Mythos 5在ExploitBench基準上得分78%,高於Mythos Preview的69%和Opus 4.8的40%,被Anthropic稱為“全球最強的網絡安全模型”。正因如此,其訪問權限受到嚴格控制,目前僅通過與美國政府合作的“玻璃翼計劃”提供,現有Mythos Preview用戶可升級至Mythos 5,未來將逐步擴大合作範圍。此外,Anthropic還計劃推出一個面向生物學研究的“可信訪問計劃”,允許特定研究人員在剝離生物和化學相關限制後使用Fable 5。
定價方面,兩款新模型的費用為每百萬輸入token 10美元,幾乎是Claude Opus 4.8的兩倍。雖然Anthropic強調Fable 5在token效率上有所提升,但具體數據尚未公佈。這一價格定位反映出前沿模型在商業化過程中面臨的成本壓力,也預示著企業級AI應用的門檻可能正在抬高。對於關注AI產業的投資者而言,模型能力的躍升固然重要,但與之相伴的算力消耗、定價策略以及安全管控模式,將共同決定這些技術能否在商業世界中大規模落地。