Anthropic最新旗艦模型Claude Fable 5在Artificial Analysis智能指數評測中拿下64.9分,躍居榜首,領先非Anthropic陣營最強的GPT-5.5約五個百分點。至此,Anthropic包攬該榜單前兩名,技術實力再次得到第三方驗證。
從具體基準看,Fable 5在十項測試中的五項創下新高。在衡量知識與幻覺的AA-Omniscience上,模型拿到40分,比前紀錄保持者Gemini 3.1 Pro Preview高出7分,優勢主要來自準確率提升而非幻覺率下降——其幻覺率處於中游,約55%。在面向真實知識工作的GDPval-AA中,Elo評分達1932,較Opus 4.8的1890提高2.2%。在Humanity's Last Exam這一高難度測試上,得分53%,領先Opus 4.8逾7個百分點。代理編碼基準Terminal-Bench Hard和工具使用測試Tau2-bench Telecom同樣位居第一。
然而,這些成績的背後是大幅攀升的成本。Fable 5的輸入token定價為每百萬10美元,輸出token每百萬50美元,恰好是Opus 4.8的5美元和25美元的兩倍。完成一次完整的智能指數基準測試需花費約9940美元,而Opus 4.8僅需4970美元。單次Humanity's Last Exam評估若觸發安全回退,成本可達約2200美元,創下Artificial Analysis測試過的所有模型之最。
成本壓力還來自Anthropic內置的安全機制。Fable 5與Claude Mythos 5共享基礎模型,但額外疊加了針對網絡安全、生物、化學及模型蒸餾等敏感領域的防護過濾器。一旦請求觸發過濾,系統會將其回退至Opus 4.8處理,而回退請求仍計入計費。Anthropic稱受影響會話不到5%,但Artificial Analysis在實際評測中觀測到約8%的任務觸發了回退,在Humanity's Last Exam上該比例更高達9%,進一步推高了實際使用成本。
從產業視角看,Fable 5延續了Anthropic自Opus 4.6以來的迭代模式——每一代性能提升有限,但定價跳躍式上漲。Opus 4.8相較4.7的提升曾被Anthropic自身形容為“溫和但可感知”,如今Fable 5的5.7%增幅再次印證這一趨勢。對於企業用戶而言,需要審慎評估哪些應用場景值得為約5%的性能增益支付翻倍費用。基準測試的侷限性也不容忽視,任何單一測試套件都難以完全反映真實世界能力,Artificial Analysis指數整合十項評估雖更具參考性,但仍只是決策拼圖的一部分。
在訪問層面,Fable 5維持與Opus 4.8相同的100萬token上下文窗口。Pro、Max、Team及Enterprise用戶可在6月22日前通過訂閱使用,但消耗量按Opus的兩倍計算。此後將轉為基於積分的計費模式,實際成本可能比token定價顯示的更高。Anthropic表示待算力充裕時將恢復訂閱通道。
值得關注的是,Artificial Analysis的數據還揭示了一個潛在信號:在開放權重模型中,AA-Omniscience準確率與模型規模呈強相關,Fable 5在該項上的表現暗示其參數量可能超過Anthropic此前所有公開模型。這或許部分解釋了成本激增背後的算力投入。
Fable 5的登場為AI產業拋出一個尖銳問題:當模型能力逼近當前架構的天花板,每一點性能提升都需要指數級增長的資源投入時,市場是否願意持續買單?這不僅關乎Anthropic的商業策略,也牽動整個基礎模型層的估值敘事與下游應用的成本結構。