在经历为期两周的出口管制后,Anthropic 的第二强大 AI 模型 Fable 5 已获美国政府批准,重新面向全球用户开放。从即日起,用户可通过 Claude 平台Claude.aiClaude CodeClaude Cowork 访问该模型。在 7 月 7 日之前,Pro、Max、Team 及部分 Enterprise 计划用户可在每周使用限额的 50% 范围内使用;此后将转为通过使用量积分计费。AWSGoogle CloudMicrosoft Foundry 上的访问权限也将“尽快”恢复。

此次禁令的起因是亚马逊研究人员发现的一种越狱方法,能够绕过 Fable 5 的安全护栏。模型在被攻击后识别出了多个软件漏洞,并在一次案例中生成了展示如何利用其中一个漏洞的代码。这一发现触发了美国政府的快速反应,导致 Fable 5 的全球交付被暂停。

Anthropic 在调查后确认,该漏洞并非 Fable 5 独有。许多能力更弱的模型,包括 Claude Opus 4.8GPT-5.5Kimi K2.7,都能发现相同的漏洞。对于具体的漏洞利用演示,甚至像 Claude Haiku 4.5 这样的小模型也产生了相同结果。Anthropic 将此定性为一次仅涉及常规防御性网络安全工作的边缘案例。

为应对这一问题,Anthropic 训练了一个改进的安全分类器,能在超过 99% 的情况下拦截亚马逊报告中描述的技术。当请求被拦截时,用户会收到通知,且该请求会被路由至较旧的 Opus 4.8 模型处理。然而,这一修复方案带来了明显的副作用:在日常编码和调试过程中,新分类器会更频繁地将无害请求误判为危险并加以拦截。事实上,在 Fable 5 首次发布时,用户就曾抱怨该模型限制过严。Anthropic 发布的示意图显示,Fable 5 的安全边际比标准护栏宽得多,虽然拦截了更多无害请求,但也更少让危险请求成为漏网之鱼。

Anthropic 坦承,制造一个完全不受越狱影响的 AI 模型“可能是不可能的”。这一观点在 Fable 5 发布前就已是业内共识。为此,公司正推动建立一套行业共享标准,用于评估越狱严重性并触发相应对策。Anthropic 表示,正与 亚马逊微软谷歌及其他 Glasswing 计划合作伙伴共同构建这一框架。此外,公司还成立了一个专门团队,对越狱提交渠道进行 7x24 小时监控,并启动了新的 HackerOne 计划,供安全研究人员报告 Fable 5 的潜在网络越狱漏洞。

值得注意的是,Fable 5 的回归并不涉及同一基础模型的限制较少版本 Mythos 5。该模型仍仅限于在 6 月 26 日获得政府批准的一组美国组织使用。Anthropic 表示,仍在与政府合作,以扩大 Glasswing 计划中更多合作伙伴的访问权限,但欧盟是否会加入仍是未知数。

在更深层的产业意义上,此事件反映了前沿 AI 模型发布正面临日益复杂的监管环境。Anthropic 正扩大与美国政府的合作,并做出多项承诺:政府合作伙伴将获得在安全敏感领域有进步能力的模型的预发布访问权;发现的越狱或滥用模式将迅速共享;公司将投入专门资源和大量算力用于联合研究;并帮助构建适用于所有前沿模型开发者的共享行业标准。Anthropic 希望将这些写入“强有力的法规”,并平等适用于每一家前沿模型开发商,认为“政府对 AI 发布的介入需要一个持久、透明的流程,让网络防御者和其他相关方对强大模型的访问有确定性”。

对于 AI 产业投资者而言,此事件不仅是一次单一产品的供应中断与恢复,更揭示了模型层公司未来可能面临的合规成本上升、发布周期延迟以及为满足安全要求而牺牲部分用户体验的长期趋势。如何在创新速度与安全监管之间找到平衡,将成为决定该领域竞争格局的关键变量。