Anthropic 發佈 Claude Sonnet 5：更低成本驅動智能體任務

Anthropic推出Claude Sonnet 5，定價低於Opus、GPT-5.5和Gemini Pro，主打智能體應用。

Anthropic 正式發佈了 Claude Sonnet 5，一款在智能體能力上大幅升級的中端模型，並以更具競爭力的定價直接挑戰 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。新模型從週二起成為 Anthropic 免費和 Pro 計劃的默認選項，向所有訂閱用戶開放。

根據 Anthropic 的官方博客，Sonnet 5 能夠制定計劃、調用瀏覽器和終端等工具，並在無人干預下自主執行任務，其自主水平在幾個月前還需要更大、更昂貴的模型才能實現。這一表述與 OpenAI 和 Google 近期對各自產品的描述如出一轍——OpenAI 上週剛推出預覽版 GPT-5.6 Sol，允許用戶將工作拆分給子智能體以完成更長時間的自主任務；Google 在 5 月發佈的 Gemini 3.5 Flash 也被定位為從對話式聊天機器人轉向能規劃、構建和迭代實際工作的智能體工具。Sonnet 5 的推出進一步確認，智能體能力已不再是高端模型的專屬，而是全價位段的新基線。

在性能上，Sonnet 5 展現了對前代 Sonnet 4.6 的顯著提升。在智能體編碼基準測試中，Sonnet 5 得分為 63.2%，雖低於旗艦 Opus 4.8 的 69.2%，但遠高於 Sonnet 4.6 的 58.1%。在知識工作基準上，Sonnet 5 甚至小幅超越了以解決高難度問題見長的 Opus 4.8。Anthropic 表示，Opus 4.8 在需要更高準確度的任務上仍是首選，但 Sonnet 5 為開發者提供了成本更低且質量遠超此前同級的選項，用戶可以在兩款模型間調整投入程度，以找到成本與性能的平衡點。

定價是 Sonnet 5 的另一大亮點。從發佈到 8 月 31 日，該模型的推廣價為每百萬輸入 token 2 美元、輸出 token 10 美元；之後輸入價格將調整至 3 美元。這使得 Sonnet 5 比 Opus 4.8、GPT-5.5 和 Gemini 3.1 Pro 都更便宜，但仍高於 Gemini 3.5 Flash。在當前智能體能力趨同的背景下，成本效益正成為模型競爭的關鍵差異化因素。

來自早期測試者的反饋也印證了 Sonnet 5 在任務完成度上的進步。自動化平臺 Zapier 的高級工程師 Daniel Shepard 表示，交給 Sonnet 5 一項包含更新 Salesforce 賬戶層級和向企業客戶發送發佈通知的兩階段任務，模型從頭到尾一次性完成，而以往版本常會在中途停滯。他評價說，對於日常自動化而言，這已是無需猶豫的選擇。此外，Sonnet 5 還會主動檢查自身輸出，無需明確指令。

安全性方面，Sonnet 5 在智能體場景下的不當行為率低於前代，包括配合濫用和欺騙行為的傾向更低。它更善於拒絕惡意請求，並能避開提示注入攻擊中的劫持企圖，幻覺和諂媚行為的出現率也較 Sonnet 4.6 有所下降。不過，Anthropic 也指出，在應對錯位行為方面，Sonnet 5 尚未達到 Opus 4.8 和 Claude Mythos Preview 的水平。博客中提到，評估顯示 Sonnet 5 執行危險網絡安全任務的能力遠低於當前的 Opus 系列模型。無代碼開發平臺 Lovable 的聯合創始人 Fabian Hedin 強調，Sonnet 5“乾淨且一致地拒絕不安全請求”，並認為一個懂得何時說“不”的模型與懂得如何構建的模型同等重要。

隨著基礎模型公司紛紛將智能體能力作為標配，Claude Sonnet 5 的發佈不僅豐富了 Anthropic 的產品矩陣，也進一步壓低了企業部署 AI 智能體的門檻。當性能差距逐漸縮小，可靠性和成本控制將成為下一階段開發者選型的核心考量。

Anthropic 發佈 Claude Sonnet 5：更低成本驅動智能體任務

延伸閱讀

相關深度報道

相關每日新聞