Anthropic新旗舰Claude Fable 5登顶，性能微增但成本翻倍

据The Decoder报道，Claude Fable 5在AI指数中得分64.9，性能仅比前代提升5.7%，但token价格翻倍。

Anthropic最新旗舰模型Claude Fable 5在Artificial Analysis智能指数评测中拿下64.9分，跃居榜首，领先非Anthropic阵营最强的GPT-5.5约五个百分点。至此，Anthropic包揽该榜单前两名，技术实力再次得到第三方验证。

从具体基准看，Fable 5在十项测试中的五项创下新高。在衡量知识与幻觉的AA-Omniscience上，模型拿到40分，比前纪录保持者Gemini 3.1 Pro Preview高出7分，优势主要来自准确率提升而非幻觉率下降——其幻觉率处于中游，约55%。在面向真实知识工作的GDPval-AA中，Elo评分达1932，较Opus 4.8的1890提高2.2%。在Humanity's Last Exam这一高难度测试上，得分53%，领先Opus 4.8逾7个百分点。代理编码基准Terminal-Bench Hard和工具使用测试Tau2-bench Telecom同样位居第一。

然而，这些成绩的背后是大幅攀升的成本。Fable 5的输入token定价为每百万10美元，输出token每百万50美元，恰好是Opus 4.8的5美元和25美元的两倍。完成一次完整的智能指数基准测试需花费约9940美元，而Opus 4.8仅需4970美元。单次Humanity's Last Exam评估若触发安全回退，成本可达约2200美元，创下Artificial Analysis测试过的所有模型之最。

成本压力还来自Anthropic内置的安全机制。Fable 5与Claude Mythos 5共享基础模型，但额外叠加了针对网络安全、生物、化学及模型蒸馏等敏感领域的防护过滤器。一旦请求触发过滤，系统会将其回退至Opus 4.8处理，而回退请求仍计入计费。Anthropic称受影响会话不到5%，但Artificial Analysis在实际评测中观测到约8%的任务触发了回退，在Humanity's Last Exam上该比例更高达9%，进一步推高了实际使用成本。

从产业视角看，Fable 5延续了Anthropic自Opus 4.6以来的迭代模式——每一代性能提升有限，但定价跳跃式上涨。Opus 4.8相较4.7的提升曾被Anthropic自身形容为“温和但可感知”，如今Fable 5的5.7%增幅再次印证这一趋势。对于企业用户而言，需要审慎评估哪些应用场景值得为约5%的性能增益支付翻倍费用。基准测试的局限性也不容忽视，任何单一测试套件都难以完全反映真实世界能力，Artificial Analysis指数整合十项评估虽更具参考性，但仍只是决策拼图的一部分。

在访问层面，Fable 5维持与Opus 4.8相同的100万token上下文窗口。Pro、Max、Team及Enterprise用户可在6月22日前通过订阅使用，但消耗量按Opus的两倍计算。此后将转为基于积分的计费模式，实际成本可能比token定价显示的更高。Anthropic表示待算力充裕时将恢复订阅通道。

值得关注的是，Artificial Analysis的数据还揭示了一个潜在信号：在开放权重模型中，AA-Omniscience准确率与模型规模呈强相关，Fable 5在该项上的表现暗示其参数量可能超过Anthropic此前所有公开模型。这或许部分解释了成本激增背后的算力投入。

Fable 5的登场为AI产业抛出一个尖锐问题：当模型能力逼近当前架构的天花板，每一点性能提升都需要指数级增长的资源投入时，市场是否愿意持续买单？这不仅关乎Anthropic的商业策略，也牵动整个基础模型层的估值叙事与下游应用的成本结构。

Anthropic新旗舰Claude Fable 5登顶，性能微增但成本翻倍

延伸阅读

相关深度报道

相关每日新闻