機器人學會靈巧操作一直是個難題,傳統方法需要人類全程參與:收集訓練數據、每次嘗試後重置場景、手動調整算法,整個過程緩慢且昂貴。英偉達聯合卡內基梅隆大學與加州大學伯克利分校的研究團隊試圖打破這一瓶頸,他們推出的ENPIRE項目讓AI編碼智能體接管了從實驗設計到代碼修改的大部分工作,使機器人在真實世界中實現自我進化。
ENPIRE的核心是一個運行在真實硬件上的閉環反饋系統。整個流程分為兩個階段。在第一階段,智能體在少量人類反饋的輔助下搭建工作環境,包括設定安全邊界、建立自動重置機制和自動化的成功判定工具。它不再需要人類逐次評估每一次操作是否成功,而是自己編寫獎勵函數來區分成敗。為此,它只需觀看幾分鐘展示成功與失敗案例的示例視頻。例如,在插針任務中,智能體開發了一套結合視覺對齊、夾爪高度和估算力度的複合檢測方案;在收緊束線帶任務中,它融合了兩個攝像頭角度以避免誤判,並將反應時間壓縮到150毫秒以下。這些工具一旦建成,便可重複使用,無需後續修改。
進入第二階段後,智能體完全獨立工作。它會自主閱讀研究論文、提出假設,並直接編輯訓練代碼。它可以選擇行為克隆——模仿人類示範的策略,也可以採用強化學習——通過試錯不斷優化策略。具體採用哪種方法,由智能體根據真實環境中的成功信號自行決定。
這套系統的規模化能力同樣引人注目。研究團隊部署了由八臺YAM雙臂機器人組成的機群,每臺機器人都配備獨立的硬件、計算單元和專屬的編碼智能體。這些智能體同時測試不同的假設,僅通過軟件行業標準的版本控制工具Git來共享結果。某一臺機器人上發現的突破性訓練配方,會迅速傳播到整個機群;失敗的思路則被自動拋棄。
根據研究論文,這套機群在多項高難度任務上取得了最高99%的成功率。在Push-T測試中,機器人需要將T形滑塊推入目標位置和方向;在插針任務中,需要將細針分類放入盒子;還有一項任務是使用切割器剪斷束線帶。其中,插針任務的策略收斂到100%成功率的速度,比同類的人工介入方法更快。
規模化帶來的時間收益也十分顯著。在Push-T測試中,將智能體數量從一臺增加到八臺,達成完全成功的時間從約五小時縮短到兩小時。插針任務則從超過90分鐘降至約40分鐘。研究團隊還橫向對比了三款當前的編碼智能體:搭載GPT-5.5的Codex、搭載Opus 4.7的Claude Code,以及搭載Kimi K2.6的Kimi Code。結果顯示,Codex在多數場景下表現最優。
不過,真實世界的複雜性遠非仿真環境可比。在Push-T測試中,三款智能體在仿真裡全部成功,但在真實環境中,有兩款遭遇了失敗。研究人員將此歸因於機器人動力學、摩擦力和物體移動等不可預測且多變的現實條件。在RoboCasa仿真基準中,ENPIRE的表現優於端到端視覺-語言-動作模型GR00T和另一種基於工具但無自主研究能力的方法CaP-X。
為了衡量效率,研究者提出了兩項新指標:平均機器人利用率追蹤機器人實際用於研究的時間佔比,平均令牌利用率則統計每分鐘的語言模型使用量。研究還發現,技能可以在不同任務間遷移——從插針任務中積累的經驗,幫助智能體用機械臂將GPU插入主板。
研究團隊也坦誠指出了當前系統的侷限。機器人和算力並未被充分利用,因為智能體花費大量時間閱讀日誌、編寫代碼和等待。機群規模越大,單臺機器人的利用率反而下降,因為智能體需要花更多時間來消化其他機器人的總結。令牌成本的增長速度也快於性能提升:更大的機群雖然能更快達成目標,但消耗的計算預算也大幅攀升。儘管如此,研究人員仍將ENPIRE視為一條通往機器人自主在真實世界中持續進化的實用路徑。