Claude Sonnet 5 單任務成本近乎翻倍，Anthropic 隱性漲價成模式

Anthropic新模型Claude Sonnet 5每任務token消耗增40%，實際成本翻倍

獨立 AI 評測機構 Artificial Analysis 在 Claude Sonnet 5 發佈前對其進行了評估，結果顯示該模型在智能指數中取得 53 分，與 GPT-5.5（高配版） 並列第五。這一成績較前代 Sonnet 4.6 的 47 分提升了 6 分，甚至在部分基於智能體的知識工作基準測試中，表現超越了 Anthropic 旗下定價更高的 Opus 4.8。

然而，性能提升的背後是推理成本的急劇膨脹。根據 Artificial Analysis 的數據，儘管 Sonnet 5 的標價與前代持平——每百萬輸入 token 收費 3 美元、每百萬輸出 token 收費 15 美元——但完成一次智能指數標準任務的平均成本卻從 Sonnet 4.6 的約 1.20 美元 飆升至 2.29 美元，甚至高於 Opus 4.8 的 1.97 美元。

成本激增的根源在於模型 token 消耗量的顯著增長。在最高性能設定下，Sonnet 5 每任務消耗的輸出 token 比前代多出約 40%。在 AA-Briefcase 和 GDPval-AA 等智能體知識工作測試中，其執行的智能體循環次數約為前代的三倍。這種更“主動”的推理行為，使得實際使用成本幾乎翻倍。

這並非 Anthropic 首次在標價不變的情況下變相提價。此前 Opus 4.7 發佈時，官方同樣維持了 token 單價，但通過引入新的分詞器，將相同文本切分為更多 token，導致實際費用上漲約 30% 至 47%。社區對超過 483 份提交的分析顯示，每次請求的 token 數量平均增加了 37.4%。此次 Sonnet 5 在分詞器問題基礎上，疊加了模型更激進的智能體行為，進一步推高了隱性成本。

在複雜推理與知識密集型任務上，Sonnet 5 仍顯吃力。在由 阿貢國家實驗室 和 伊利諾伊大學 聯合推出的前沿物理推理測試 CritPt 中，Sonnet 5 得分僅為 17%，雖較前代提升 14 個百分點，但仍低於 GLM-5.2、Claude Opus、Fable 及 GPT-5.5 的高配版本。在其他基準上，Sonnet 5 表現穩健：Terminal-Bench v2.1 提升 9 分，Humanity's Last Exam 提升 10 分，SciCode 提升 7 分，其餘評測分數基本持平。

Anthropic 這種隱性成本攀升模式，在其所處的市場競爭格局下面臨更大壓力。以 Deepseek V4 Pro 和 GLM-5.2 為代表的中國模型，正以極具競爭力的價格在中端市場提供相近性能。當標價失去實際參考意義時，企業開發者在預算評估和模型選型中需要更透明的定價指標，例如標準化任務成本或真實知識工作負載成本，而非原始的 token 單價。

儘管 Anthropic 當前對 Sonnet 5 提供每百萬 token 2 美元（輸入） 和 10 美元（輸出） 的促銷價（截至 9 月 1 日），但 Artificial Analysis 的所有成本測算均基於常規標價。這一代際間的成本躍升，為 AI 產業的價格透明度敲響了警鐘。

Claude Sonnet 5 單任務成本近乎翻倍，Anthropic 隱性漲價成模式

延伸閱讀

相關深度報道

相關每日新聞