Anthropic 发布 Claude Sonnet 5：更低成本驱动智能体任务

Anthropic推出Claude Sonnet 5，定价低于Opus、GPT-5.5和Gemini Pro，主打智能体应用。

Anthropic 正式发布了 Claude Sonnet 5，一款在智能体能力上大幅升级的中端模型，并以更具竞争力的定价直接挑战 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。新模型从周二起成为 Anthropic 免费和 Pro 计划的默认选项，向所有订阅用户开放。

根据 Anthropic 的官方博客，Sonnet 5 能够制定计划、调用浏览器和终端等工具，并在无人干预下自主执行任务，其自主水平在几个月前还需要更大、更昂贵的模型才能实现。这一表述与 OpenAI 和 Google 近期对各自产品的描述如出一辙——OpenAI 上周刚推出预览版 GPT-5.6 Sol，允许用户将工作拆分给子智能体以完成更长时间的自主任务；Google 在 5 月发布的 Gemini 3.5 Flash 也被定位为从对话式聊天机器人转向能规划、构建和迭代实际工作的智能体工具。Sonnet 5 的推出进一步确认，智能体能力已不再是高端模型的专属，而是全价位段的新基线。

在性能上，Sonnet 5 展现了对前代 Sonnet 4.6 的显著提升。在智能体编码基准测试中，Sonnet 5 得分为 63.2%，虽低于旗舰 Opus 4.8 的 69.2%，但远高于 Sonnet 4.6 的 58.1%。在知识工作基准上，Sonnet 5 甚至小幅超越了以解决高难度问题见长的 Opus 4.8。Anthropic 表示，Opus 4.8 在需要更高准确度的任务上仍是首选，但 Sonnet 5 为开发者提供了成本更低且质量远超此前同级的选项，用户可以在两款模型间调整投入程度，以找到成本与性能的平衡点。

定价是 Sonnet 5 的另一大亮点。从发布到 8 月 31 日，该模型的推广价为每百万输入 token 2 美元、输出 token 10 美元；之后输入价格将调整至 3 美元。这使得 Sonnet 5 比 Opus 4.8、GPT-5.5 和 Gemini 3.1 Pro 都更便宜，但仍高于 Gemini 3.5 Flash。在当前智能体能力趋同的背景下，成本效益正成为模型竞争的关键差异化因素。

来自早期测试者的反馈也印证了 Sonnet 5 在任务完成度上的进步。自动化平台 Zapier 的高级工程师 Daniel Shepard 表示，交给 Sonnet 5 一项包含更新 Salesforce 账户层级和向企业客户发送发布通知的两阶段任务，模型从头到尾一次性完成，而以往版本常会在中途停滞。他评价说，对于日常自动化而言，这已是无需犹豫的选择。此外，Sonnet 5 还会主动检查自身输出，无需明确指令。

安全性方面，Sonnet 5 在智能体场景下的不当行为率低于前代，包括配合滥用和欺骗行为的倾向更低。它更善于拒绝恶意请求，并能避开提示注入攻击中的劫持企图，幻觉和谄媚行为的出现率也较 Sonnet 4.6 有所下降。不过，Anthropic 也指出，在应对错位行为方面，Sonnet 5 尚未达到 Opus 4.8 和 Claude Mythos Preview 的水平。博客中提到，评估显示 Sonnet 5 执行危险网络安全任务的能力远低于当前的 Opus 系列模型。无代码开发平台 Lovable 的联合创始人 Fabian Hedin 强调，Sonnet 5“干净且一致地拒绝不安全请求”，并认为一个懂得何时说“不”的模型与懂得如何构建的模型同等重要。

随着基础模型公司纷纷将智能体能力作为标配，Claude Sonnet 5 的发布不仅丰富了 Anthropic 的产品矩阵，也进一步压低了企业部署 AI 智能体的门槛。当性能差距逐渐缩小，可靠性和成本控制将成为下一阶段开发者选型的核心考量。

Anthropic 发布 Claude Sonnet 5：更低成本驱动智能体任务

延伸阅读

相关深度报道

相关每日新闻