英伟达研究团队发布了一个名为ENPIRE的软件框架,其核心思路是将当前AI编码代理的自主实验与执行循环,移植到实体机器人身上。这套系统让机器人在真实环境中自行尝试、失败、评估并改进策略,全程大幅减少人类介入,为具身智能的自我进化提供了一种可操作的工程范式。
ENPIRE的全称揭示了其四大模块:Environment模块负责环境自动重置与验证,Policy Improvement模块启动策略精炼,Rollout模块支持单台或多台机器人并行执行与评估,Evolution模块则由编码代理分析日志、查阅文献并改进训练代码与算法,以攻克失败模式。整个闭环将现实世界的机器人学习转化为一种可控的优化流程,由代理自主管理。
实现这一闭环的两个关键突破在于自动评估系统与自动重置系统。前者无需人类判断即可对每次试验结果打分,后者能将场景恢复至初始状态以供下一轮尝试。这两项任务过去消耗大量人力,ENPIRE在简单任务上已能将其自动化,但更复杂的任务仍可能受限于评估与重置的自动化程度。
硬件配置方面,每个工作站搭载两块I2RT的YAM机械臂(固定双臂配置)、多组摄像头以及一台运行NVIDIA RTX 5090的工作站,由FastAPI服务器驱动策略推理与站内代理。在测试中,前沿编码代理成功让机器人自主发展出策略,在PushT、整理针盒以及用切割器剪断扎带等挑战性灵巧操作任务上达到99%的成功率。团队还额外测试了机器人将GPU插入主板的能力。
不同AI系统作为代理基座时表现各异:GPT-5.5(Codex内)与Opus 4.7(Claude Code内)交替领先,而Kimi-2.6相对落后。更值得注意的是代理数量的规模效应——当同时运行8个代理时,系统往往能更快收敛到更高分的解决方案,且多代理配置的绝对得分有时高于单代理,这很可能源于对潜在解空间的更广泛探索。
然而,规模化部署也暴露了基础设施层面的挑战。编码代理在读取日志、编写代码、调试或等待语言模型响应时,并未充分利用机器人资源,导致机器人利用率(MRU)下降而GPU活跃利用率上升,意味着多机器人代理的并行化并非天然顺畅,仍需解决调度与资源匹配问题。
ENPIRE的发布不仅是一次机器人学习的技术展示,更暗示了一种未来图景:当超智能试图通过机器人将自身实例化于物理世界时,类似的自主实验与迭代循环或许就是其基本运作方式。尽管当前示例仍属初步,但该框架已将“机器人自我改进”从概念推向了可复现的工程实践。
与此同时,Import AI在同期评论中援引一篇法学研究论文提醒,人类对技术发展轨迹的预测记录极为糟糕。从核裂变实现前顶尖物理学家的普遍怀疑,到诺贝尔经济学奖得主保罗·克鲁格曼曾称互联网的影响不会超过传真机,再到技术界曾乐观预期互联网将促进民主而非强化威权,历史反复证明:无论是过度悲观还是过度乐观,对AI经济与社会影响的断言都极可能出错。这一警示为ENPIRE这类前沿探索提供了更冷静的观察视角——技术演进的路径与后果,往往超出时人想象。