Anthropic正式发布了其第五代AI模型家族的两款产品:面向通用场景的Claude Fable 5,以及目前仍处于受限访问状态的Claude Mythos 5。这两款模型共享同一基础架构,但在安全限制和应用定位上截然不同。Fable 5配备了保守的安全护栏,用于常规商业与开发任务;Mythos 5则在网络安全等专业领域移除了这些限制,仅通过“玻璃翼计划”向美国政府及少数合作伙伴开放。
在性能层面,Anthropic宣称Fable 5在几乎所有公开基准测试中均取得了领先成绩,尤其体现在长周期、复杂任务上。在衡量真实软件工程能力的SWE-Bench Pro基准中,Fable 5得分80.3%,远高于Claude Opus 4.8的69.2%、GPT 5.5的58.6%和Gemini 3.1 Pro的54.2%。在更严苛的Cognition FrontierCode基准中,Fable 5拿到29.3%,而Opus 4.8仅为13.4%,GPT 5.5更是只有5.7%。支付处理商Stripe的实际使用案例进一步印证了这些数字:在一个包含5000万行Ruby代码的代码库中,Fable 5仅用一天就完成了一项原本需要整个团队两个多月才能搞定的迁移任务。
除了编程,Fable 5在知识工作和视觉理解上也展现出明显进步。在Hebbia金融基准测试中,该模型在文档推理、图表解读等任务上取得了所有模型中的最高分。交易集团IMC表示,Fable 5几乎通过了他们所有的交易分析评估。视觉方面,Fable 5能从复杂的科学插图中提取精确数据,甚至仅凭截图就能重建一个网页应用的全部源代码。在一次演示中,它仅依靠游戏截图就通关了《宝可梦 火红》,而早期模型需要借助复杂的外部辅助框架和额外地图数据才能做到。
Mythos 5的能力则指向更前沿的科研领域。Anthropic内部的蛋白质设计专家指出,Mythos 5将药物设计流程的某些环节加速了10倍。在一次测试中,模型在仅配备蛋白质设计和生物信息学工具、完全没有人类干预的情况下,自主完成了从选择结合位点、运行设计工具到修正错误的全部步骤,在14个蛋白质靶点中有9个产生了强候选药物分子,这些候选分子目前已进入研究阶段。更引人注目的是,Anthropic声称Mythos 5是首个能持续产出新颖且令人信服的科学假设的模型。在盲测中,Anthropic的科学家在约80%的情况下更偏好Mythos 5提出的分子生物学假设,其中一项关于大肠杆菌蛋白的新机制假设已得到独立研究的支持。
在基因组学领域,Mythos 5自主运行了超过一周,收集了来自138个物种的数百万个单细胞数据,随后自行设计并训练了一个机器学习模型,用于识别远缘物种中功能相同的细胞。据称,其结果优于近期发表在《科学》杂志上的一个模型,而模型体积却小了100倍。Anthropic计划在未来几个月内正式发表这些结果。
安全与访问策略是此次发布中不可忽视的另一面。Mythos 5在ExploitBench基准上得分78%,高于Mythos Preview的69%和Opus 4.8的40%,被Anthropic称为“全球最强的网络安全模型”。正因如此,其访问权限受到严格控制,目前仅通过与美国政府合作的“玻璃翼计划”提供,现有Mythos Preview用户可升级至Mythos 5,未来将逐步扩大合作范围。此外,Anthropic还计划推出一个面向生物学研究的“可信访问计划”,允许特定研究人员在剥离生物和化学相关限制后使用Fable 5。
定价方面,两款新模型的费用为每百万输入token 10美元,几乎是Claude Opus 4.8的两倍。虽然Anthropic强调Fable 5在token效率上有所提升,但具体数据尚未公布。这一价格定位反映出前沿模型在商业化过程中面临的成本压力,也预示着企业级AI应用的门槛可能正在抬高。对于关注AI产业的投资者而言,模型能力的跃升固然重要,但与之相伴的算力消耗、定价策略以及安全管控模式,将共同决定这些技术能否在商业世界中大规模落地。