Claude Opus 4.7 在 MirrorCode 基准测试中获 56% 解决率，单任务运行 19 天耗资 2600 美元

Epoch AI发布MirrorCode基准测试，Claude Opus 4.7以56%解决率领先，但所有模型在复杂任务上均失败。

AI 研究机构 Epoch AI 与 METR 近日发布了名为 MirrorCode 的全新编程基准测试，专门考察 AI 模型在完全无法访问原始源代码的条件下，从零重建完整软件项目的能力。该基准覆盖 25 个目标程序，横跨 Unix 工具、数据序列化、生物信息学、解释器、静态分析、密码学和压缩等多个计算机科学领域，并要求 AI 生成的解决方案精确复现原程序的全部输出，包括模型在开发过程中从未见过的隐藏端到端测试。

在首轮评估中，Claude Opus 4.7 以 56% 的整体解决率位居榜首，GPT-5.5 以 44% 紧随其后，Gemini 3.1 Pro Preview 则以 32% 排名第三。即便模型未能完全重建某个程序，它们通常也能通过 90% 以上的测试用例，显示出对程序逻辑的深度理解。

最引人注目的案例来自 Claude Opus 4.7 对 gotree 的重建。gotree 是一个用 Go 语言编写的生物信息学工具包，包含约 1.6 万行代码和超过 40 条命令。研究人员估计，一名人类工程师在不借助 AI 的情况下完成相同工作需要 2 到 17 周。而 Claude Opus 4.7 仅用 14 小时便完成了任务，运行成本为 251 美元。

然而，MirrorCode 也暴露了当前 AI 系统的明显短板。基准中的任务按规模分为小、中、大三类。所有被测模型都能稳定地重新实现 uuid 或 parseqsv 等小型程序，但面对最大规模的任务时，尚无任何模型能够成功。其中一项大型任务让 AI 模型连续运行了 19 天，单次运行成本高达 2600 美元，最终仍以失败告终。

这一结果与此前许多软件工程基准形成鲜明对比。Epoch AI 指出，现有基准通常将单任务推理成本限制在 1 到 10 美元，而 MirrorCode 大幅放宽了预算约束，更贴近真实世界中复杂软件项目的资源投入。研究人员表示，一年前的领先模型在 MirrorCode 上的预估得分仅为 30% 左右，且只能应对日历工具等简单程序，可见进展之快。

成本趋势方面，不同模型的表现并不一致。GPT-5.5 在相同任务上的运行成本是 GPT-5 的三倍，而 Claude Opus 4.7 的成本仅为 Claude Opus 4.1 的三分之一，反映出各厂商在推理效率优化上的不同路径。

Epoch AI 已将 MirrorCode 的测试框架和 25 个目标程序中的 22 个开源，涵盖 6 种编程语言和 132 个任务实例，剩余 3 个程序保留用于私密测试。研究团队同时提醒，由于基准采用开源程序作为目标，无法完全排除模型在训练阶段接触过原始代码的可能性。初步测试表明“结果并未被记忆效应主导，但我们不能排除记忆对 AI 表现有所贡献”。

MirrorCode 的发布为 AI 编程能力的评估提供了一个更贴近真实工程场景的标尺。它不再局限于短小的函数补全或单文件修复，而是将目光投向需要持续数天甚至数周、涉及数万行代码的完整系统重建。对于关注 AI 对软件行业冲击的投资者和从业者而言，这份基准既展示了 AI 在长期自主编程上的惊人潜力，也划出了当前技术无法逾越的边界——在最大规模、最复杂的任务面前，人类工程师的不可替代性依然牢固。

Claude Opus 4.7 在 MirrorCode 基准测试中获 56% 解决率，单任务运行 19 天耗资 2600 美元

延伸阅读

相关深度报道

相关每日新闻