英偉達ENPIRE框架實現機器人自主迭代學習

Import AI 463 報道自改進機器人、中國萬卡GPU集群及一篇悼念人類時代的文章。

英偉達研究團隊發佈了一個名為ENPIRE的軟件框架，其核心思路是將當前AI編碼代理的自主實驗與執行循環，移植到實體機器人身上。這套系統讓機器人在真實環境中自行嘗試、失敗、評估並改進策略，全程大幅減少人類介入，為具身智能的自我進化提供了一種可操作的工程範式。

ENPIRE的全稱揭示了其四大模塊：Environment模塊負責環境自動重置與驗證，Policy Improvement模塊啟動策略精煉，Rollout模塊支持單臺或多臺機器人並行執行與評估，Evolution模塊則由編碼代理分析日誌、查閱文獻並改進訓練代碼與算法，以攻克失敗模式。整個閉環將現實世界的機器人學習轉化為一種可控的優化流程，由代理自主管理。

實現這一閉環的兩個關鍵突破在於自動評估系統與自動重置系統。前者無需人類判斷即可對每次試驗結果打分，後者能將場景恢復至初始狀態以供下一輪嘗試。這兩項任務過去消耗大量人力，ENPIRE在簡單任務上已能將其自動化，但更復雜的任務仍可能受限於評估與重置的自動化程度。

硬件配置方面，每個工作站搭載兩塊I2RT的YAM機械臂（固定雙臂配置）、多組攝像頭以及一臺運行NVIDIA RTX 5090的工作站，由FastAPI服務器驅動策略推理與站內代理。在測試中，前沿編碼代理成功讓機器人自主發展出策略，在PushT、整理針盒以及用切割器剪斷紮帶等挑戰性靈巧操作任務上達到99%的成功率。團隊還額外測試了機器人將GPU插入主板的能力。

不同AI系統作為代理基座時表現各異：GPT-5.5（Codex內）與Opus 4.7（Claude Code內）交替領先，而Kimi-2.6相對落後。更值得注意的是代理數量的規模效應——當同時運行8個代理時，系統往往能更快收斂到更高分的解決方案，且多代理配置的絕對得分有時高於單代理，這很可能源於對潛在解空間的更廣泛探索。

然而，規模化部署也暴露了基礎設施層面的挑戰。編碼代理在讀取日誌、編寫代碼、調試或等待語言模型響應時，並未充分利用機器人資源，導致機器人利用率（MRU）下降而GPU活躍利用率上升，意味著多機器人代理的並行化並非天然順暢，仍需解決調度與資源匹配問題。

ENPIRE的發佈不僅是一次機器人學習的技術展示，更暗示了一種未來圖景：當超智能試圖通過機器人將自身實例化於物理世界時，類似的自主實驗與迭代循環或許就是其基本運作方式。儘管當前示例仍屬初步，但該框架已將“機器人自我改進”從概念推向了可復現的工程實踐。

與此同時，Import AI在同期評論中援引一篇法學研究論文提醒，人類對技術發展軌跡的預測記錄極為糟糕。從核裂變實現前頂尖物理學家的普遍懷疑，到諾貝爾經濟學獎得主保羅·克魯格曼曾稱互聯網的影響不會超過傳真機，再到技術界曾樂觀預期互聯網將促進民主而非強化威權，歷史反覆證明：無論是過度悲觀還是過度樂觀，對AI經濟與社會影響的斷言都極可能出錯。這一警示為ENPIRE這類前沿探索提供了更冷靜的觀察視角——技術演進的路徑與後果，往往超出時人想象。

英偉達ENPIRE框架實現機器人自主迭代學習

延伸閱讀

相關深度報道

相關每日新聞