Claude Sonnet 5 单任务成本近乎翻倍，Anthropic 隐性涨价成模式

Anthropic新模型Claude Sonnet 5每任务token消耗增40%，实际成本翻倍

独立 AI 评测机构 Artificial Analysis 在 Claude Sonnet 5 发布前对其进行了评估，结果显示该模型在智能指数中取得 53 分，与 GPT-5.5（高配版） 并列第五。这一成绩较前代 Sonnet 4.6 的 47 分提升了 6 分，甚至在部分基于智能体的知识工作基准测试中，表现超越了 Anthropic 旗下定价更高的 Opus 4.8。

然而，性能提升的背后是推理成本的急剧膨胀。根据 Artificial Analysis 的数据，尽管 Sonnet 5 的标价与前代持平——每百万输入 token 收费 3 美元、每百万输出 token 收费 15 美元——但完成一次智能指数标准任务的平均成本却从 Sonnet 4.6 的约 1.20 美元 飙升至 2.29 美元，甚至高于 Opus 4.8 的 1.97 美元。

成本激增的根源在于模型 token 消耗量的显著增长。在最高性能设定下，Sonnet 5 每任务消耗的输出 token 比前代多出约 40%。在 AA-Briefcase 和 GDPval-AA 等智能体知识工作测试中，其执行的智能体循环次数约为前代的三倍。这种更“主动”的推理行为，使得实际使用成本几乎翻倍。

这并非 Anthropic 首次在标价不变的情况下变相提价。此前 Opus 4.7 发布时，官方同样维持了 token 单价，但通过引入新的分词器，将相同文本切分为更多 token，导致实际费用上涨约 30% 至 47%。社区对超过 483 份提交的分析显示，每次请求的 token 数量平均增加了 37.4%。此次 Sonnet 5 在分词器问题基础上，叠加了模型更激进的智能体行为，进一步推高了隐性成本。

在复杂推理与知识密集型任务上，Sonnet 5 仍显吃力。在由 阿贡国家实验室 和 伊利诺伊大学 联合推出的前沿物理推理测试 CritPt 中，Sonnet 5 得分仅为 17%，虽较前代提升 14 个百分点，但仍低于 GLM-5.2、Claude Opus、Fable 及 GPT-5.5 的高配版本。在其他基准上，Sonnet 5 表现稳健：Terminal-Bench v2.1 提升 9 分，Humanity's Last Exam 提升 10 分，SciCode 提升 7 分，其余评测分数基本持平。

Anthropic 这种隐性成本攀升模式，在其所处的市场竞争格局下面临更大压力。以 Deepseek V4 Pro 和 GLM-5.2 为代表的中国模型，正以极具竞争力的价格在中端市场提供相近性能。当标价失去实际参考意义时，企业开发者在预算评估和模型选型中需要更透明的定价指标，例如标准化任务成本或真实知识工作负载成本，而非原始的 token 单价。

尽管 Anthropic 当前对 Sonnet 5 提供每百万 token 2 美元（输入） 和 10 美元（输出） 的促销价（截至 9 月 1 日），但 Artificial Analysis 的所有成本测算均基于常规标价。这一代际间的成本跃升，为 AI 产业的价格透明度敲响了警钟。

Claude Sonnet 5 单任务成本近乎翻倍，Anthropic 隐性涨价成模式

延伸阅读

相关深度报道

相关每日新闻