Anthropic最新旗舰模型Claude Fable 5在Artificial Analysis智能指数评测中拿下64.9分,跃居榜首,领先非Anthropic阵营最强的GPT-5.5约五个百分点。至此,Anthropic包揽该榜单前两名,技术实力再次得到第三方验证。
从具体基准看,Fable 5在十项测试中的五项创下新高。在衡量知识与幻觉的AA-Omniscience上,模型拿到40分,比前纪录保持者Gemini 3.1 Pro Preview高出7分,优势主要来自准确率提升而非幻觉率下降——其幻觉率处于中游,约55%。在面向真实知识工作的GDPval-AA中,Elo评分达1932,较Opus 4.8的1890提高2.2%。在Humanity's Last Exam这一高难度测试上,得分53%,领先Opus 4.8逾7个百分点。代理编码基准Terminal-Bench Hard和工具使用测试Tau2-bench Telecom同样位居第一。
然而,这些成绩的背后是大幅攀升的成本。Fable 5的输入token定价为每百万10美元,输出token每百万50美元,恰好是Opus 4.8的5美元和25美元的两倍。完成一次完整的智能指数基准测试需花费约9940美元,而Opus 4.8仅需4970美元。单次Humanity's Last Exam评估若触发安全回退,成本可达约2200美元,创下Artificial Analysis测试过的所有模型之最。
成本压力还来自Anthropic内置的安全机制。Fable 5与Claude Mythos 5共享基础模型,但额外叠加了针对网络安全、生物、化学及模型蒸馏等敏感领域的防护过滤器。一旦请求触发过滤,系统会将其回退至Opus 4.8处理,而回退请求仍计入计费。Anthropic称受影响会话不到5%,但Artificial Analysis在实际评测中观测到约8%的任务触发了回退,在Humanity's Last Exam上该比例更高达9%,进一步推高了实际使用成本。
从产业视角看,Fable 5延续了Anthropic自Opus 4.6以来的迭代模式——每一代性能提升有限,但定价跳跃式上涨。Opus 4.8相较4.7的提升曾被Anthropic自身形容为“温和但可感知”,如今Fable 5的5.7%增幅再次印证这一趋势。对于企业用户而言,需要审慎评估哪些应用场景值得为约5%的性能增益支付翻倍费用。基准测试的局限性也不容忽视,任何单一测试套件都难以完全反映真实世界能力,Artificial Analysis指数整合十项评估虽更具参考性,但仍只是决策拼图的一部分。
在访问层面,Fable 5维持与Opus 4.8相同的100万token上下文窗口。Pro、Max、Team及Enterprise用户可在6月22日前通过订阅使用,但消耗量按Opus的两倍计算。此后将转为基于积分的计费模式,实际成本可能比token定价显示的更高。Anthropic表示待算力充裕时将恢复订阅通道。
值得关注的是,Artificial Analysis的数据还揭示了一个潜在信号:在开放权重模型中,AA-Omniscience准确率与模型规模呈强相关,Fable 5在该项上的表现暗示其参数量可能超过Anthropic此前所有公开模型。这或许部分解释了成本激增背后的算力投入。
Fable 5的登场为AI产业抛出一个尖锐问题:当模型能力逼近当前架构的天花板,每一点性能提升都需要指数级增长的资源投入时,市场是否愿意持续买单?这不仅关乎Anthropic的商业策略,也牵动整个基础模型层的估值叙事与下游应用的成本结构。