Claude Opus 4.7 在 MirrorCode 基準測試中獲 56% 解決率，單任務運行 19 天耗資 2600 美元

Epoch AI發佈MirrorCode基準測試，Claude Opus 4.7以56%解決率領先，但所有模型在複雜任務上均失敗。

AI 研究機構 Epoch AI 與 METR 近日發佈了名為 MirrorCode 的全新編程基準測試，專門考察 AI 模型在完全無法訪問原始源代碼的條件下，從零重建完整軟件項目的能力。該基準覆蓋 25 個目標程序，橫跨 Unix 工具、數據序列化、生物信息學、解釋器、靜態分析、密碼學和壓縮等多個計算機科學領域，並要求 AI 生成的解決方案精確復現原程序的全部輸出，包括模型在開發過程中從未見過的隱藏端到端測試。

在首輪評估中，Claude Opus 4.7 以 56% 的整體解決率位居榜首，GPT-5.5 以 44% 緊隨其後，Gemini 3.1 Pro Preview 則以 32% 排名第三。即便模型未能完全重建某個程序，它們通常也能通過 90% 以上的測試用例，顯示出對程序邏輯的深度理解。

最引人注目的案例來自 Claude Opus 4.7 對 gotree 的重建。gotree 是一個用 Go 語言編寫的生物信息學工具包，包含約 1.6 萬行代碼和超過 40 條命令。研究人員估計，一名人類工程師在不借助 AI 的情況下完成相同工作需要 2 到 17 周。而 Claude Opus 4.7 僅用 14 小時便完成了任務，運行成本為 251 美元。

然而，MirrorCode 也暴露了當前 AI 系統的明顯短板。基準中的任務按規模分為小、中、大三類。所有被測模型都能穩定地重新實現 uuid 或 parseqsv 等小型程序，但面對最大規模的任務時，尚無任何模型能夠成功。其中一項大型任務讓 AI 模型連續運行了 19 天，單次運行成本高達 2600 美元，最終仍以失敗告終。

這一結果與此前許多軟件工程基準形成鮮明對比。Epoch AI 指出，現有基準通常將單任務推理成本限制在 1 到 10 美元，而 MirrorCode 大幅放寬了預算約束，更貼近真實世界中複雜軟件項目的資源投入。研究人員表示，一年前的領先模型在 MirrorCode 上的預估得分僅為 30% 左右，且只能應對日曆工具等簡單程序，可見進展之快。

成本趨勢方面，不同模型的表現並不一致。GPT-5.5 在相同任務上的運行成本是 GPT-5 的三倍，而 Claude Opus 4.7 的成本僅為 Claude Opus 4.1 的三分之一，反映出各廠商在推理效率優化上的不同路徑。

Epoch AI 已將 MirrorCode 的測試框架和 25 個目標程序中的 22 個開源，涵蓋 6 種編程語言和 132 個任務實例，剩餘 3 個程序保留用於私密測試。研究團隊同時提醒，由於基準採用開源程序作為目標，無法完全排除模型在訓練階段接觸過原始代碼的可能性。初步測試表明“結果並未被記憶效應主導，但我們不能排除記憶對 AI 表現有所貢獻”。

MirrorCode 的發佈為 AI 編程能力的評估提供了一個更貼近真實工程場景的標尺。它不再侷限於短小的函數補全或單文件修復，而是將目光投向需要持續數天甚至數週、涉及數萬行代碼的完整系統重建。對於關注 AI 對軟件行業衝擊的投資者和從業者而言，這份基準既展示了 AI 在長期自主編程上的驚人潛力，也劃出了當前技術無法逾越的邊界——在最大規模、最複雜的任務面前，人類工程師的不可替代性依然牢固。

Claude Opus 4.7 在 MirrorCode 基準測試中獲 56% 解決率，單任務運行 19 天耗資 2600 美元

延伸閱讀

相關深度報道

相關每日新聞