AI 研究机构 Epoch AIMETR 近日发布了名为 MirrorCode 的全新编程基准测试,专门考察 AI 模型在完全无法访问原始源代码的条件下,从零重建完整软件项目的能力。该基准覆盖 25 个目标程序,横跨 Unix 工具、数据序列化、生物信息学、解释器、静态分析、密码学和压缩等多个计算机科学领域,并要求 AI 生成的解决方案精确复现原程序的全部输出,包括模型在开发过程中从未见过的隐藏端到端测试。

在首轮评估中,Claude Opus 4.756% 的整体解决率位居榜首,GPT-5.544% 紧随其后,Gemini 3.1 Pro Preview 则以 32% 排名第三。即便模型未能完全重建某个程序,它们通常也能通过 90% 以上的测试用例,显示出对程序逻辑的深度理解。

最引人注目的案例来自 Claude Opus 4.7 对 gotree 的重建。gotree 是一个用 Go 语言编写的生物信息学工具包,包含约 1.6 万行代码和超过 40 条命令。研究人员估计,一名人类工程师在不借助 AI 的情况下完成相同工作需要 2 到 17 周。而 Claude Opus 4.7 仅用 14 小时便完成了任务,运行成本为 251 美元

然而,MirrorCode 也暴露了当前 AI 系统的明显短板。基准中的任务按规模分为小、中、大三类。所有被测模型都能稳定地重新实现 uuidparseqsv 等小型程序,但面对最大规模的任务时,尚无任何模型能够成功。其中一项大型任务让 AI 模型连续运行了 19 天,单次运行成本高达 2600 美元,最终仍以失败告终。

这一结果与此前许多软件工程基准形成鲜明对比。Epoch AI 指出,现有基准通常将单任务推理成本限制在 1 到 10 美元,而 MirrorCode 大幅放宽了预算约束,更贴近真实世界中复杂软件项目的资源投入。研究人员表示,一年前的领先模型在 MirrorCode 上的预估得分仅为 30% 左右,且只能应对日历工具等简单程序,可见进展之快。

成本趋势方面,不同模型的表现并不一致。GPT-5.5 在相同任务上的运行成本是 GPT-5 的三倍,而 Claude Opus 4.7 的成本仅为 Claude Opus 4.1 的三分之一,反映出各厂商在推理效率优化上的不同路径。

Epoch AI 已将 MirrorCode 的测试框架和 25 个目标程序中的 22 个开源,涵盖 6 种编程语言132 个任务实例,剩余 3 个程序保留用于私密测试。研究团队同时提醒,由于基准采用开源程序作为目标,无法完全排除模型在训练阶段接触过原始代码的可能性。初步测试表明“结果并未被记忆效应主导,但我们不能排除记忆对 AI 表现有所贡献”。

MirrorCode 的发布为 AI 编程能力的评估提供了一个更贴近真实工程场景的标尺。它不再局限于短小的函数补全或单文件修复,而是将目光投向需要持续数天甚至数周、涉及数万行代码的完整系统重建。对于关注 AI 对软件行业冲击的投资者和从业者而言,这份基准既展示了 AI 在长期自主编程上的惊人潜力,也划出了当前技术无法逾越的边界——在最大规模、最复杂的任务面前,人类工程师的不可替代性依然牢固。