Anthropic 正式发布了 Claude Sonnet 5,一款在智能体能力上大幅升级的中端模型,并以更具竞争力的定价直接挑战 OpenAI 的 GPT-5.5Google 的 Gemini 3.1 Pro。新模型从周二起成为 Anthropic 免费和 Pro 计划的默认选项,向所有订阅用户开放。

根据 Anthropic 的官方博客,Sonnet 5 能够制定计划、调用浏览器和终端等工具,并在无人干预下自主执行任务,其自主水平在几个月前还需要更大、更昂贵的模型才能实现。这一表述与 OpenAI 和 Google 近期对各自产品的描述如出一辙——OpenAI 上周刚推出预览版 GPT-5.6 Sol,允许用户将工作拆分给子智能体以完成更长时间的自主任务;Google 在 5 月发布的 Gemini 3.5 Flash 也被定位为从对话式聊天机器人转向能规划、构建和迭代实际工作的智能体工具。Sonnet 5 的推出进一步确认,智能体能力已不再是高端模型的专属,而是全价位段的新基线。

在性能上,Sonnet 5 展现了对前代 Sonnet 4.6 的显著提升。在智能体编码基准测试中,Sonnet 5 得分为 63.2%,虽低于旗舰 Opus 4.869.2%,但远高于 Sonnet 4.6 的 58.1%。在知识工作基准上,Sonnet 5 甚至小幅超越了以解决高难度问题见长的 Opus 4.8。Anthropic 表示,Opus 4.8 在需要更高准确度的任务上仍是首选,但 Sonnet 5 为开发者提供了成本更低且质量远超此前同级的选项,用户可以在两款模型间调整投入程度,以找到成本与性能的平衡点。

定价是 Sonnet 5 的另一大亮点。从发布到 8 月 31 日,该模型的推广价为每百万输入 token 2 美元、输出 token 10 美元;之后输入价格将调整至 3 美元。这使得 Sonnet 5 比 Opus 4.8、GPT-5.5 和 Gemini 3.1 Pro 都更便宜,但仍高于 Gemini 3.5 Flash。在当前智能体能力趋同的背景下,成本效益正成为模型竞争的关键差异化因素。

来自早期测试者的反馈也印证了 Sonnet 5 在任务完成度上的进步。自动化平台 Zapier 的高级工程师 Daniel Shepard 表示,交给 Sonnet 5 一项包含更新 Salesforce 账户层级和向企业客户发送发布通知的两阶段任务,模型从头到尾一次性完成,而以往版本常会在中途停滞。他评价说,对于日常自动化而言,这已是无需犹豫的选择。此外,Sonnet 5 还会主动检查自身输出,无需明确指令。

安全性方面,Sonnet 5 在智能体场景下的不当行为率低于前代,包括配合滥用和欺骗行为的倾向更低。它更善于拒绝恶意请求,并能避开提示注入攻击中的劫持企图,幻觉和谄媚行为的出现率也较 Sonnet 4.6 有所下降。不过,Anthropic 也指出,在应对错位行为方面,Sonnet 5 尚未达到 Opus 4.8 和 Claude Mythos Preview 的水平。博客中提到,评估显示 Sonnet 5 执行危险网络安全任务的能力远低于当前的 Opus 系列模型。无代码开发平台 Lovable 的联合创始人 Fabian Hedin 强调,Sonnet 5“干净且一致地拒绝不安全请求”,并认为一个懂得何时说“不”的模型与懂得如何构建的模型同等重要。

随着基础模型公司纷纷将智能体能力作为标配,Claude Sonnet 5 的发布不仅丰富了 Anthropic 的产品矩阵,也进一步压低了企业部署 AI 智能体的门槛。当性能差距逐渐缩小,可靠性和成本控制将成为下一阶段开发者选型的核心考量。