一场围绕AI安全与商业部署的博弈,在本周五达到了一个戏剧性的转折点。美国政府下令AI公司Anthropic立即关闭其两款性能最强大的模型——Claude Fable 5和Claude Mythos 5,理由是国家安全。Anthropic在社交媒体上宣布已遵守指令,但同时在一篇长篇博文中明确表达了不满,认为政府此举是过度反应。
根据Anthropic的说法,该指令于美东时间周五下午5点21分送达,要求公司在全球范围内禁用这两款模型,而不仅仅是针对最初出口管制令所指向的外国公民。Anthropic的其他模型不受影响。
要理解这场风波的根源,需要回顾这两款模型的特殊背景。Mythos是Anthropic迄今能力最强的AI模型,于四月初首次预览。该公司将其描述为在发现软件安全漏洞方面具有异常能力——在测试中,Mythos找出了所有主流操作系统和网络浏览器的缺陷。正因如此,Anthropic并未将其广泛发布,而是启动了一个名为“玻璃翼计划”的受控项目,仅与大约50家经过审查的组织共享,包括亚马逊、苹果、谷歌、微软和CrowdStrike,用于防御性网络安全工作。
而Fable 5则是在三天前刚刚发布的。它是Mythos的商业化版本,但加装了防护栏,阻止模型在网络安全和生物等高风险领域做出回应。Anthropic认为,这使得Fable 5足够安全,可以向公众开放。根据AI性能追踪公司Vals AI的基准测试,它一经发布便成为公众可用的最强模型。
政府的指令表面上是出口管制行动,限制外国公民访问这些模型。但Anthropic在博文中透露,其理解背后的真正担忧,是有人声称找到了Fable 5的一个“越狱”方法。Anthropic强调,政府至今只提供了口头证据,描述的是一个“潜在的、狭窄的、非普遍的越狱”——按照该公司的说法,这不过是诱导模型读取特定代码库并识别软件缺陷。Anthropic还补充说,这种能力水平在包括OpenAI的GPT-5.5在内的其他公开可用模型中早已广泛存在,并且网络安全专业人员日常就在使用它进行防御性工作。
Anthropic的核心论点是,其最强大的安全防护措施是通过独立于模型本身的分类器系统运行的。这意味着,即使有人设法让Fable在遭到拒绝后继续对话,针对最危险输出的底层保护依然有效。该公司还在博文中指出,对近期使用情况的审查未发现任何证据表明这些防护措施被成功绕过,并产生了真正有害的内容。
然而,这些解释显然未能阻止政府采取行动。Anthropic在博文中直言不讳地写道:“我们不同意,一个狭窄的潜在越狱发现应成为召回一款已部署给数亿人的商业模型的理由。如果这一标准应用于整个行业,我们相信它将实质上叫停所有前沿模型提供商的所有新模型部署。”
此事发生的时机对Anthropic尤为敏感。该公司被广泛预期将在今年进行首次公开募股,并且其公众形象很大程度上建立在“注重安全的替代方案”这一叙事之上——与竞争对手形成鲜明对比。观察人士注意到其中的讽刺意味:Anthropic在限制Mythos时所展现的极度谨慎——它曾宣传该模型因过于危险而不能公开发布——如今恰恰引来了可能对其业务造成最大破坏的政府审查。
OpenAI的萨姆·奥尔特曼或许正在旁观这场风波。今年四月,他在一档播客节目中评论称,Anthropic对Mythos的处理方式无异于“基于恐惧的营销”。他当时说:“宣称‘我们造了一颗炸弹,正准备把它扔到你头上,但我们可以卖给你一个价值一亿美元的地下掩体’,这显然是绝妙的营销。”奥尔特曼当时并未预测到政府会出手叫停,但他点出了一个如今反噬Anthropic的事实:当你花了数月时间告诉全世界你的AI具有独一无二的危险性时,全世界——包括美国政府——往往会认真倾听。
这一事件可能产生深远的行业影响。它首次确立了监管机构可以基于未经验证的安全漏洞报告,直接干预并召回已大规模部署的商业AI模型的先例。对于所有正在推进前沿模型商业化的公司而言,这不仅意味着技术风险,更意味着一种全新的监管不确定性:安全叙事可能成为一把双刃剑,在建立品牌信任的同时,也可能招致最严厉的行政干预。