AI 研究機構 Epoch AIMETR 近日發佈了名為 MirrorCode 的全新編程基準測試,專門考察 AI 模型在完全無法訪問原始源代碼的條件下,從零重建完整軟件項目的能力。該基準覆蓋 25 個目標程序,橫跨 Unix 工具、數據序列化、生物信息學、解釋器、靜態分析、密碼學和壓縮等多個計算機科學領域,並要求 AI 生成的解決方案精確復現原程序的全部輸出,包括模型在開發過程中從未見過的隱藏端到端測試。

在首輪評估中,Claude Opus 4.756% 的整體解決率位居榜首,GPT-5.544% 緊隨其後,Gemini 3.1 Pro Preview 則以 32% 排名第三。即便模型未能完全重建某個程序,它們通常也能通過 90% 以上的測試用例,顯示出對程序邏輯的深度理解。

最引人注目的案例來自 Claude Opus 4.7 對 gotree 的重建。gotree 是一個用 Go 語言編寫的生物信息學工具包,包含約 1.6 萬行代碼和超過 40 條命令。研究人員估計,一名人類工程師在不借助 AI 的情況下完成相同工作需要 2 到 17 周。而 Claude Opus 4.7 僅用 14 小時便完成了任務,運行成本為 251 美元

然而,MirrorCode 也暴露了當前 AI 系統的明顯短板。基準中的任務按規模分為小、中、大三類。所有被測模型都能穩定地重新實現 uuidparseqsv 等小型程序,但面對最大規模的任務時,尚無任何模型能夠成功。其中一項大型任務讓 AI 模型連續運行了 19 天,單次運行成本高達 2600 美元,最終仍以失敗告終。

這一結果與此前許多軟件工程基準形成鮮明對比。Epoch AI 指出,現有基準通常將單任務推理成本限制在 1 到 10 美元,而 MirrorCode 大幅放寬了預算約束,更貼近真實世界中複雜軟件項目的資源投入。研究人員表示,一年前的領先模型在 MirrorCode 上的預估得分僅為 30% 左右,且只能應對日曆工具等簡單程序,可見進展之快。

成本趨勢方面,不同模型的表現並不一致。GPT-5.5 在相同任務上的運行成本是 GPT-5 的三倍,而 Claude Opus 4.7 的成本僅為 Claude Opus 4.1 的三分之一,反映出各廠商在推理效率優化上的不同路徑。

Epoch AI 已將 MirrorCode 的測試框架和 25 個目標程序中的 22 個開源,涵蓋 6 種編程語言132 個任務實例,剩餘 3 個程序保留用於私密測試。研究團隊同時提醒,由於基準採用開源程序作為目標,無法完全排除模型在訓練階段接觸過原始代碼的可能性。初步測試表明“結果並未被記憶效應主導,但我們不能排除記憶對 AI 表現有所貢獻”。

MirrorCode 的發佈為 AI 編程能力的評估提供了一個更貼近真實工程場景的標尺。它不再侷限於短小的函數補全或單文件修復,而是將目光投向需要持續數天甚至數週、涉及數萬行代碼的完整系統重建。對於關注 AI 對軟件行業衝擊的投資者和從業者而言,這份基準既展示了 AI 在長期自主編程上的驚人潛力,也劃出了當前技術無法逾越的邊界——在最大規模、最複雜的任務面前,人類工程師的不可替代性依然牢固。