獨立 AI 評測機構 Artificial Analysis 在 Claude Sonnet 5 發佈前對其進行了評估,結果顯示該模型在智能指數中取得 53 分,與 GPT-5.5(高配版) 並列第五。這一成績較前代 Sonnet 4.6 的 47 分提升了 6 分,甚至在部分基於智能體的知識工作基準測試中,表現超越了 Anthropic 旗下定價更高的 Opus 4.8

然而,性能提升的背後是推理成本的急劇膨脹。根據 Artificial Analysis 的數據,儘管 Sonnet 5 的標價與前代持平——每百萬輸入 token 收費 3 美元、每百萬輸出 token 收費 15 美元——但完成一次智能指數標準任務的平均成本卻從 Sonnet 4.6 的約 1.20 美元 飆升至 2.29 美元,甚至高於 Opus 4.8 的 1.97 美元。

成本激增的根源在於模型 token 消耗量的顯著增長。在最高性能設定下,Sonnet 5 每任務消耗的輸出 token 比前代多出約 40%。在 AA-BriefcaseGDPval-AA 等智能體知識工作測試中,其執行的智能體循環次數約為前代的三倍。這種更“主動”的推理行為,使得實際使用成本幾乎翻倍。

這並非 Anthropic 首次在標價不變的情況下變相提價。此前 Opus 4.7 發佈時,官方同樣維持了 token 單價,但通過引入新的分詞器,將相同文本切分為更多 token,導致實際費用上漲約 30% 至 47%。社區對超過 483 份提交的分析顯示,每次請求的 token 數量平均增加了 37.4%。此次 Sonnet 5 在分詞器問題基礎上,疊加了模型更激進的智能體行為,進一步推高了隱性成本。

在複雜推理與知識密集型任務上,Sonnet 5 仍顯吃力。在由 阿貢國家實驗室伊利諾伊大學 聯合推出的前沿物理推理測試 CritPt 中,Sonnet 5 得分僅為 17%,雖較前代提升 14 個百分點,但仍低於 GLM-5.2Claude OpusFableGPT-5.5 的高配版本。在其他基準上,Sonnet 5 表現穩健:Terminal-Bench v2.1 提升 9 分,Humanity's Last Exam 提升 10 分,SciCode 提升 7 分,其餘評測分數基本持平。

Anthropic 這種隱性成本攀升模式,在其所處的市場競爭格局下面臨更大壓力。以 Deepseek V4 ProGLM-5.2 為代表的中國模型,正以極具競爭力的價格在中端市場提供相近性能。當標價失去實際參考意義時,企業開發者在預算評估和模型選型中需要更透明的定價指標,例如標準化任務成本或真實知識工作負載成本,而非原始的 token 單價。

儘管 Anthropic 當前對 Sonnet 5 提供每百萬 token 2 美元(輸入)10 美元(輸出) 的促銷價(截至 9 月 1 日),但 Artificial Analysis 的所有成本測算均基於常規標價。這一代際間的成本躍升,為 AI 產業的價格透明度敲響了警鐘。