Anthropic 正式發佈了 Claude Sonnet 5,一款在智能體能力上大幅升級的中端模型,並以更具競爭力的定價直接挑戰 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。新模型從週二起成為 Anthropic 免費和 Pro 計劃的默認選項,向所有訂閱用戶開放。
根據 Anthropic 的官方博客,Sonnet 5 能夠制定計劃、調用瀏覽器和終端等工具,並在無人干預下自主執行任務,其自主水平在幾個月前還需要更大、更昂貴的模型才能實現。這一表述與 OpenAI 和 Google 近期對各自產品的描述如出一轍——OpenAI 上週剛推出預覽版 GPT-5.6 Sol,允許用戶將工作拆分給子智能體以完成更長時間的自主任務;Google 在 5 月發佈的 Gemini 3.5 Flash 也被定位為從對話式聊天機器人轉向能規劃、構建和迭代實際工作的智能體工具。Sonnet 5 的推出進一步確認,智能體能力已不再是高端模型的專屬,而是全價位段的新基線。
在性能上,Sonnet 5 展現了對前代 Sonnet 4.6 的顯著提升。在智能體編碼基準測試中,Sonnet 5 得分為 63.2%,雖低於旗艦 Opus 4.8 的 69.2%,但遠高於 Sonnet 4.6 的 58.1%。在知識工作基準上,Sonnet 5 甚至小幅超越了以解決高難度問題見長的 Opus 4.8。Anthropic 表示,Opus 4.8 在需要更高準確度的任務上仍是首選,但 Sonnet 5 為開發者提供了成本更低且質量遠超此前同級的選項,用戶可以在兩款模型間調整投入程度,以找到成本與性能的平衡點。
定價是 Sonnet 5 的另一大亮點。從發佈到 8 月 31 日,該模型的推廣價為每百萬輸入 token 2 美元、輸出 token 10 美元;之後輸入價格將調整至 3 美元。這使得 Sonnet 5 比 Opus 4.8、GPT-5.5 和 Gemini 3.1 Pro 都更便宜,但仍高於 Gemini 3.5 Flash。在當前智能體能力趨同的背景下,成本效益正成為模型競爭的關鍵差異化因素。
來自早期測試者的反饋也印證了 Sonnet 5 在任務完成度上的進步。自動化平臺 Zapier 的高級工程師 Daniel Shepard 表示,交給 Sonnet 5 一項包含更新 Salesforce 賬戶層級和向企業客戶發送發佈通知的兩階段任務,模型從頭到尾一次性完成,而以往版本常會在中途停滯。他評價說,對於日常自動化而言,這已是無需猶豫的選擇。此外,Sonnet 5 還會主動檢查自身輸出,無需明確指令。
安全性方面,Sonnet 5 在智能體場景下的不當行為率低於前代,包括配合濫用和欺騙行為的傾向更低。它更善於拒絕惡意請求,並能避開提示注入攻擊中的劫持企圖,幻覺和諂媚行為的出現率也較 Sonnet 4.6 有所下降。不過,Anthropic 也指出,在應對錯位行為方面,Sonnet 5 尚未達到 Opus 4.8 和 Claude Mythos Preview 的水平。博客中提到,評估顯示 Sonnet 5 執行危險網絡安全任務的能力遠低於當前的 Opus 系列模型。無代碼開發平臺 Lovable 的聯合創始人 Fabian Hedin 強調,Sonnet 5“乾淨且一致地拒絕不安全請求”,並認為一個懂得何時說“不”的模型與懂得如何構建的模型同等重要。
隨著基礎模型公司紛紛將智能體能力作為標配,Claude Sonnet 5 的發佈不僅豐富了 Anthropic 的產品矩陣,也進一步壓低了企業部署 AI 智能體的門檻。當性能差距逐漸縮小,可靠性和成本控制將成為下一階段開發者選型的核心考量。