英偉達研究團隊發佈了一個名為ENPIRE的軟件框架,其核心思路是將當前AI編碼代理的自主實驗與執行循環,移植到實體機器人身上。這套系統讓機器人在真實環境中自行嘗試、失敗、評估並改進策略,全程大幅減少人類介入,為具身智能的自我進化提供了一種可操作的工程範式。
ENPIRE的全稱揭示了其四大模塊:Environment模塊負責環境自動重置與驗證,Policy Improvement模塊啟動策略精煉,Rollout模塊支持單臺或多臺機器人並行執行與評估,Evolution模塊則由編碼代理分析日誌、查閱文獻並改進訓練代碼與算法,以攻克失敗模式。整個閉環將現實世界的機器人學習轉化為一種可控的優化流程,由代理自主管理。
實現這一閉環的兩個關鍵突破在於自動評估系統與自動重置系統。前者無需人類判斷即可對每次試驗結果打分,後者能將場景恢復至初始狀態以供下一輪嘗試。這兩項任務過去消耗大量人力,ENPIRE在簡單任務上已能將其自動化,但更復雜的任務仍可能受限於評估與重置的自動化程度。
硬件配置方面,每個工作站搭載兩塊I2RT的YAM機械臂(固定雙臂配置)、多組攝像頭以及一臺運行NVIDIA RTX 5090的工作站,由FastAPI服務器驅動策略推理與站內代理。在測試中,前沿編碼代理成功讓機器人自主發展出策略,在PushT、整理針盒以及用切割器剪斷紮帶等挑戰性靈巧操作任務上達到99%的成功率。團隊還額外測試了機器人將GPU插入主板的能力。
不同AI系統作為代理基座時表現各異:GPT-5.5(Codex內)與Opus 4.7(Claude Code內)交替領先,而Kimi-2.6相對落後。更值得注意的是代理數量的規模效應——當同時運行8個代理時,系統往往能更快收斂到更高分的解決方案,且多代理配置的絕對得分有時高於單代理,這很可能源於對潛在解空間的更廣泛探索。
然而,規模化部署也暴露了基礎設施層面的挑戰。編碼代理在讀取日誌、編寫代碼、調試或等待語言模型響應時,並未充分利用機器人資源,導致機器人利用率(MRU)下降而GPU活躍利用率上升,意味著多機器人代理的並行化並非天然順暢,仍需解決調度與資源匹配問題。
ENPIRE的發佈不僅是一次機器人學習的技術展示,更暗示了一種未來圖景:當超智能試圖通過機器人將自身實例化於物理世界時,類似的自主實驗與迭代循環或許就是其基本運作方式。儘管當前示例仍屬初步,但該框架已將“機器人自我改進”從概念推向了可復現的工程實踐。
與此同時,Import AI在同期評論中援引一篇法學研究論文提醒,人類對技術發展軌跡的預測記錄極為糟糕。從核裂變實現前頂尖物理學家的普遍懷疑,到諾貝爾經濟學獎得主保羅·克魯格曼曾稱互聯網的影響不會超過傳真機,再到技術界曾樂觀預期互聯網將促進民主而非強化威權,歷史反覆證明:無論是過度悲觀還是過度樂觀,對AI經濟與社會影響的斷言都極可能出錯。這一警示為ENPIRE這類前沿探索提供了更冷靜的觀察視角——技術演進的路徑與後果,往往超出時人想象。