Anthropic 限制 Fable 5 模型回答网络安全与生化问题

Anthropic前沿模型Fable 5拒绝回答网络安全、生物学和化学相关查询。

Anthropic 本周二正式公开发布了 Claude Fable 5 模型，这是该公司首个被归类为“Mythos 级”的模型。据称，其综合能力已超越此前的前沿 Opus 系列。然而，与以往模型发布不同，此次上线伴随着一套显著收紧的安全机制：Fable 5 被设计为拒绝回答涉及网络安全、生物学和化学等领域的查询，这些领域被公司视为可能“提升”恶意行为者能力的敏感地带。

这一决策背后，是 Anthropic 对前沿模型潜在滥用风险的深度担忧。Fable 5 与同期结束“Mythos 预览期”的 Mythos 5 运行在相同的底层模型之上，但 Mythos 5 仅通过既有的“玻璃翼计划”向一小部分经审核可信的网络防御者开放。相比之下，面向公众的 Fable 5 则内置了过滤机制，当用户提出上述敏感领域的问题时，系统会自动将查询转交给上一代模型 Claude Opus 4.8 来处理，并明确告知用户这一转换正在发生。

从基准测试来看，Fable 5 在多项指标上取得了进步，其中网络安全相关能力的跃升尤为显著。Anthropic 公开的图表显示，该模型在网络安全基准上的得分出现了大幅跳升。正是这种能力的急剧增强，促使公司采取了比以往更为谨慎的公开策略。Anthropic 坦言，他们有意将这些安全护栏调校得“比理想状态更为严格”，这意味着系统有时可能会拒绝一些实际上无害的请求。公司承认，这对普通用户而言可能造成困扰，但强调在测试中，此类误拒情况发生在不到 5% 的会话里。在他们看来，承受这种程度的误拒是值得的，目的是避免出现 Mythos 级模型为恶意行为者提供“从其他来源无法获得的、能造成严重伤害的协助”的情形。

这一做法在 AI 产业内引发了对能力开放与安全可控之间边界的新一轮思考。过去，模型发布的主流叙事是追求更强的通用能力和更广的可用性，而 Anthropic 此次主动为更强大的模型戴上“缰绳”，将部分能力回退至旧版系统，实际上是在公开划定一条红线：某些知识领域，即便模型已经掌握，也不应成为公共对话的默认选项。这反映出前沿 AI 实验室正从“能否做到”的技术竞赛，转向“是否应该开放”的责任评估。

对于产业投资者和从业者而言，这一事件传递出多重信号。一方面，它凸显了安全治理正在从论文和原则声明走向具体的产品决策，可能成为模型商业化的新变量——更严格的限制或许会影响用户体验和某些专业场景的采用速度，但也可能降低监管干预的紧迫性。另一方面，Anthropic 区分 Mythos 5 与 Fable 5 的部署路径，展示了“能力分级开放”的可行模式：最强大的能力仅向受信合作伙伴开放，而公众版本则在关键维度上保持克制。这种模式若被行业效仿，或将重塑 AI 云服务的产品架构和定价逻辑，甚至影响企业客户对模型选型的考量。

值得注意的是，Anthropic 并未完全封锁这些能力，而是选择将其降级至 Opus 4.8 处理。这暗示公司认为旧模型的能力尚处于安全阈值之内，而新模型的跃升幅度已跨过了某个风险临界点。这种基于能力评估的动态管控思路，可能推动整个行业建立更精细化的模型风险分级标准。

Anthropic 限制 Fable 5 模型回答网络安全与生化问题

延伸阅读

相关深度报道

相关每日新闻