独立 AI 评测机构 Artificial Analysis 在 Claude Sonnet 5 发布前对其进行了评估,结果显示该模型在智能指数中取得 53 分,与 GPT-5.5(高配版) 并列第五。这一成绩较前代 Sonnet 4.6 的 47 分提升了 6 分,甚至在部分基于智能体的知识工作基准测试中,表现超越了 Anthropic 旗下定价更高的 Opus 4.8。
然而,性能提升的背后是推理成本的急剧膨胀。根据 Artificial Analysis 的数据,尽管 Sonnet 5 的标价与前代持平——每百万输入 token 收费 3 美元、每百万输出 token 收费 15 美元——但完成一次智能指数标准任务的平均成本却从 Sonnet 4.6 的约 1.20 美元 飙升至 2.29 美元,甚至高于 Opus 4.8 的 1.97 美元。
成本激增的根源在于模型 token 消耗量的显著增长。在最高性能设定下,Sonnet 5 每任务消耗的输出 token 比前代多出约 40%。在 AA-Briefcase 和 GDPval-AA 等智能体知识工作测试中,其执行的智能体循环次数约为前代的三倍。这种更“主动”的推理行为,使得实际使用成本几乎翻倍。
这并非 Anthropic 首次在标价不变的情况下变相提价。此前 Opus 4.7 发布时,官方同样维持了 token 单价,但通过引入新的分词器,将相同文本切分为更多 token,导致实际费用上涨约 30% 至 47%。社区对超过 483 份提交的分析显示,每次请求的 token 数量平均增加了 37.4%。此次 Sonnet 5 在分词器问题基础上,叠加了模型更激进的智能体行为,进一步推高了隐性成本。
在复杂推理与知识密集型任务上,Sonnet 5 仍显吃力。在由 阿贡国家实验室 和 伊利诺伊大学 联合推出的前沿物理推理测试 CritPt 中,Sonnet 5 得分仅为 17%,虽较前代提升 14 个百分点,但仍低于 GLM-5.2、Claude Opus、Fable 及 GPT-5.5 的高配版本。在其他基准上,Sonnet 5 表现稳健:Terminal-Bench v2.1 提升 9 分,Humanity's Last Exam 提升 10 分,SciCode 提升 7 分,其余评测分数基本持平。
Anthropic 这种隐性成本攀升模式,在其所处的市场竞争格局下面临更大压力。以 Deepseek V4 Pro 和 GLM-5.2 为代表的中国模型,正以极具竞争力的价格在中端市场提供相近性能。当标价失去实际参考意义时,企业开发者在预算评估和模型选型中需要更透明的定价指标,例如标准化任务成本或真实知识工作负载成本,而非原始的 token 单价。
尽管 Anthropic 当前对 Sonnet 5 提供每百万 token 2 美元(输入) 和 10 美元(输出) 的促销价(截至 9 月 1 日),但 Artificial Analysis 的所有成本测算均基于常规标价。这一代际间的成本跃升,为 AI 产业的价格透明度敲响了警钟。