英伟达ENPIRE框架实现机器人自主迭代学习

Import AI 463 报道自改进机器人、中国万卡GPU集群及一篇悼念人类时代的文章。

英伟达研究团队发布了一个名为ENPIRE的软件框架，其核心思路是将当前AI编码代理的自主实验与执行循环，移植到实体机器人身上。这套系统让机器人在真实环境中自行尝试、失败、评估并改进策略，全程大幅减少人类介入，为具身智能的自我进化提供了一种可操作的工程范式。

ENPIRE的全称揭示了其四大模块：Environment模块负责环境自动重置与验证，Policy Improvement模块启动策略精炼，Rollout模块支持单台或多台机器人并行执行与评估，Evolution模块则由编码代理分析日志、查阅文献并改进训练代码与算法，以攻克失败模式。整个闭环将现实世界的机器人学习转化为一种可控的优化流程，由代理自主管理。

实现这一闭环的两个关键突破在于自动评估系统与自动重置系统。前者无需人类判断即可对每次试验结果打分，后者能将场景恢复至初始状态以供下一轮尝试。这两项任务过去消耗大量人力，ENPIRE在简单任务上已能将其自动化，但更复杂的任务仍可能受限于评估与重置的自动化程度。

硬件配置方面，每个工作站搭载两块I2RT的YAM机械臂（固定双臂配置）、多组摄像头以及一台运行NVIDIA RTX 5090的工作站，由FastAPI服务器驱动策略推理与站内代理。在测试中，前沿编码代理成功让机器人自主发展出策略，在PushT、整理针盒以及用切割器剪断扎带等挑战性灵巧操作任务上达到99%的成功率。团队还额外测试了机器人将GPU插入主板的能力。

不同AI系统作为代理基座时表现各异：GPT-5.5（Codex内）与Opus 4.7（Claude Code内）交替领先，而Kimi-2.6相对落后。更值得注意的是代理数量的规模效应——当同时运行8个代理时，系统往往能更快收敛到更高分的解决方案，且多代理配置的绝对得分有时高于单代理，这很可能源于对潜在解空间的更广泛探索。

然而，规模化部署也暴露了基础设施层面的挑战。编码代理在读取日志、编写代码、调试或等待语言模型响应时，并未充分利用机器人资源，导致机器人利用率（MRU）下降而GPU活跃利用率上升，意味着多机器人代理的并行化并非天然顺畅，仍需解决调度与资源匹配问题。

ENPIRE的发布不仅是一次机器人学习的技术展示，更暗示了一种未来图景：当超智能试图通过机器人将自身实例化于物理世界时，类似的自主实验与迭代循环或许就是其基本运作方式。尽管当前示例仍属初步，但该框架已将“机器人自我改进”从概念推向了可复现的工程实践。

与此同时，Import AI在同期评论中援引一篇法学研究论文提醒，人类对技术发展轨迹的预测记录极为糟糕。从核裂变实现前顶尖物理学家的普遍怀疑，到诺贝尔经济学奖得主保罗·克鲁格曼曾称互联网的影响不会超过传真机，再到技术界曾乐观预期互联网将促进民主而非强化威权，历史反复证明：无论是过度悲观还是过度乐观，对AI经济与社会影响的断言都极可能出错。这一警示为ENPIRE这类前沿探索提供了更冷静的观察视角——技术演进的路径与后果，往往超出时人想象。

英伟达ENPIRE框架实现机器人自主迭代学习

延伸阅读

相关深度报道

相关每日新闻