Anthropic新旗艦Claude Fable 5登頂，效能微增但成本翻倍

據The Decoder報道，Claude Fable 5在AI指數中得分64.9，效能僅比前代提升5.7%，但token價格翻倍。

Anthropic最新旗艦模型Claude Fable 5在Artificial Analysis智慧指數評測中拿下64.9分，躍居榜首，領先非Anthropic陣營最強的GPT-5.5約五個百分點。至此，Anthropic包攬該榜單前兩名，技術實力再次得到第三方驗證。

從具體基準看，Fable 5在十項測試中的五項創下新高。在衡量知識與幻覺的AA-Omniscience上，模型拿到40分，比前紀錄保持者Gemini 3.1 Pro Preview高出7分，優勢主要來自準確率提升而非幻覺率下降——其幻覺率處於中游，約55%。在面向真實知識工作的GDPval-AA中，Elo評分達1932，較Opus 4.8的1890提高2.2%。在Humanity's Last Exam這一高難度測試上，得分53%，領先Opus 4.8逾7個百分點。代理編碼基準Terminal-Bench Hard和工具使用測試Tau2-bench Telecom同樣位居第一。

然而，這些成績的背後是大幅攀升的成本。Fable 5的輸入token定價為每百萬10美元，輸出token每百萬50美元，恰好是Opus 4.8的5美元和25美元的兩倍。完成一次完整的智慧指數基準測試需花費約9940美元，而Opus 4.8僅需4970美元。單次Humanity's Last Exam評估若觸發安全回退，成本可達約2200美元，創下Artificial Analysis測試過的所有模型之最。

成本壓力還來自Anthropic內建的安全機制。Fable 5與Claude Mythos 5共享基礎模型，但額外疊加了針對網路安全、生物、化學及模型蒸餾等敏感領域的防護過濾器。一旦請求觸發過濾，系統會將其回退至Opus 4.8處理，而回退請求仍計入計費。Anthropic稱受影響會話不到5%，但Artificial Analysis在實際評測中觀測到約8%的任務觸發了回退，在Humanity's Last Exam上該比例更高達9%，進一步推高了實際使用成本。

從產業視角看，Fable 5延續了Anthropic自Opus 4.6以來的迭代模式——每一代效能提升有限，但定價跳躍式上漲。Opus 4.8相較4.7的提升曾被Anthropic自身形容為“溫和但可感知”，如今Fable 5的5.7%增幅再次印證這一趨勢。對於企業使用者而言，需要審慎評估哪些應用場景值得為約5%的效能增益支付翻倍費用。基準測試的侷限性也不容忽視，任何單一測試套件都難以完全反映真實世界能力，Artificial Analysis指數整合十項評估雖更具參考性，但仍只是決策拼圖的一部分。

在訪問層面，Fable 5維持與Opus 4.8相同的100萬token上下文視窗。Pro、Max、Team及Enterprise使用者可在6月22日前通過訂閱使用，但消耗量按Opus的兩倍計算。此後將轉為基於積分的計費模式，實際成本可能比token定價顯示的更高。Anthropic表示待算力充裕時將恢復訂閱通道。

值得關注的是，Artificial Analysis的資料還揭示了一個潛在訊號：在開放權重模型中，AA-Omniscience準確率與模型規模呈強相關，Fable 5在該項上的表現暗示其引數量可能超過Anthropic此前所有公開模型。這或許部分解釋了成本激增背後的算力投入。

Fable 5的登場為AI產業丟擲一個尖銳問題：當模型能力逼近當前架構的天花板，每一點效能提升都需要指數級增長的資源投入時，市場是否願意持續買單？這不僅關乎Anthropic的商業策略，也牽動整個基礎模型層的估值敘事與下游應用的成本結構。

Anthropic新旗艦Claude Fable 5登頂，效能微增但成本翻倍

延伸閱讀

相關深度報道

相關每日新聞