Anthropic 本周二正式公开发布了 Claude Fable 5 模型,这是该公司首个被归类为“Mythos 级”的模型。据称,其综合能力已超越此前的前沿 Opus 系列。然而,与以往模型发布不同,此次上线伴随着一套显著收紧的安全机制:Fable 5 被设计为拒绝回答涉及网络安全、生物学和化学等领域的查询,这些领域被公司视为可能“提升”恶意行为者能力的敏感地带。
这一决策背后,是 Anthropic 对前沿模型潜在滥用风险的深度担忧。Fable 5 与同期结束“Mythos 预览期”的 Mythos 5 运行在相同的底层模型之上,但 Mythos 5 仅通过既有的“玻璃翼计划”向一小部分经审核可信的网络防御者开放。相比之下,面向公众的 Fable 5 则内置了过滤机制,当用户提出上述敏感领域的问题时,系统会自动将查询转交给上一代模型 Claude Opus 4.8 来处理,并明确告知用户这一转换正在发生。
从基准测试来看,Fable 5 在多项指标上取得了进步,其中网络安全相关能力的跃升尤为显著。Anthropic 公开的图表显示,该模型在网络安全基准上的得分出现了大幅跳升。正是这种能力的急剧增强,促使公司采取了比以往更为谨慎的公开策略。Anthropic 坦言,他们有意将这些安全护栏调校得“比理想状态更为严格”,这意味着系统有时可能会拒绝一些实际上无害的请求。公司承认,这对普通用户而言可能造成困扰,但强调在测试中,此类误拒情况发生在不到 5% 的会话里。在他们看来,承受这种程度的误拒是值得的,目的是避免出现 Mythos 级模型为恶意行为者提供“从其他来源无法获得的、能造成严重伤害的协助”的情形。
这一做法在 AI 产业内引发了对能力开放与安全可控之间边界的新一轮思考。过去,模型发布的主流叙事是追求更强的通用能力和更广的可用性,而 Anthropic 此次主动为更强大的模型戴上“缰绳”,将部分能力回退至旧版系统,实际上是在公开划定一条红线:某些知识领域,即便模型已经掌握,也不应成为公共对话的默认选项。这反映出前沿 AI 实验室正从“能否做到”的技术竞赛,转向“是否应该开放”的责任评估。
对于产业投资者和从业者而言,这一事件传递出多重信号。一方面,它凸显了安全治理正在从论文和原则声明走向具体的产品决策,可能成为模型商业化的新变量——更严格的限制或许会影响用户体验和某些专业场景的采用速度,但也可能降低监管干预的紧迫性。另一方面,Anthropic 区分 Mythos 5 与 Fable 5 的部署路径,展示了“能力分级开放”的可行模式:最强大的能力仅向受信合作伙伴开放,而公众版本则在关键维度上保持克制。这种模式若被行业效仿,或将重塑 AI 云服务的产品架构和定价逻辑,甚至影响企业客户对模型选型的考量。
值得注意的是,Anthropic 并未完全封锁这些能力,而是选择将其降级至 Opus 4.8 处理。这暗示公司认为旧模型的能力尚处于安全阈值之内,而新模型的跃升幅度已跨过了某个风险临界点。这种基于能力评估的动态管控思路,可能推动整个行业建立更精细化的模型风险分级标准。