机器人学会灵巧操作一直是个难题,传统方法需要人类全程参与:收集训练数据、每次尝试后重置场景、手动调整算法,整个过程缓慢且昂贵。英伟达联合卡内基梅隆大学与加州大学伯克利分校的研究团队试图打破这一瓶颈,他们推出的ENPIRE项目让AI编码智能体接管了从实验设计到代码修改的大部分工作,使机器人在真实世界中实现自我进化。
ENPIRE的核心是一个运行在真实硬件上的闭环反馈系统。整个流程分为两个阶段。在第一阶段,智能体在少量人类反馈的辅助下搭建工作环境,包括设定安全边界、建立自动重置机制和自动化的成功判定工具。它不再需要人类逐次评估每一次操作是否成功,而是自己编写奖励函数来区分成败。为此,它只需观看几分钟展示成功与失败案例的示例视频。例如,在插针任务中,智能体开发了一套结合视觉对齐、夹爪高度和估算力度的复合检测方案;在收紧束线带任务中,它融合了两个摄像头角度以避免误判,并将反应时间压缩到150毫秒以下。这些工具一旦建成,便可重复使用,无需后续修改。
进入第二阶段后,智能体完全独立工作。它会自主阅读研究论文、提出假设,并直接编辑训练代码。它可以选择行为克隆——模仿人类示范的策略,也可以采用强化学习——通过试错不断优化策略。具体采用哪种方法,由智能体根据真实环境中的成功信号自行决定。
这套系统的规模化能力同样引人注目。研究团队部署了由八台YAM双臂机器人组成的机群,每台机器人都配备独立的硬件、计算单元和专属的编码智能体。这些智能体同时测试不同的假设,仅通过软件行业标准的版本控制工具Git来共享结果。某一台机器人上发现的突破性训练配方,会迅速传播到整个机群;失败的思路则被自动抛弃。
根据研究论文,这套机群在多项高难度任务上取得了最高99%的成功率。在Push-T测试中,机器人需要将T形滑块推入目标位置和方向;在插针任务中,需要将细针分类放入盒子;还有一项任务是使用切割器剪断束线带。其中,插针任务的策略收敛到100%成功率的速度,比同类的人工介入方法更快。
规模化带来的时间收益也十分显著。在Push-T测试中,将智能体数量从一台增加到八台,达成完全成功的时间从约五小时缩短到两小时。插针任务则从超过90分钟降至约40分钟。研究团队还横向对比了三款当前的编码智能体:搭载GPT-5.5的Codex、搭载Opus 4.7的Claude Code,以及搭载Kimi K2.6的Kimi Code。结果显示,Codex在多数场景下表现最优。
不过,真实世界的复杂性远非仿真环境可比。在Push-T测试中,三款智能体在仿真里全部成功,但在真实环境中,有两款遭遇了失败。研究人员将此归因于机器人动力学、摩擦力和物体移动等不可预测且多变的现实条件。在RoboCasa仿真基准中,ENPIRE的表现优于端到端视觉-语言-动作模型GR00T和另一种基于工具但无自主研究能力的方法CaP-X。
为了衡量效率,研究者提出了两项新指标:平均机器人利用率追踪机器人实际用于研究的时间占比,平均令牌利用率则统计每分钟的语言模型使用量。研究还发现,技能可以在不同任务间迁移——从插针任务中积累的经验,帮助智能体用机械臂将GPU插入主板。
研究团队也坦诚指出了当前系统的局限。机器人和算力并未被充分利用,因为智能体花费大量时间阅读日志、编写代码和等待。机群规模越大,单台机器人的利用率反而下降,因为智能体需要花更多时间来消化其他机器人的总结。令牌成本的增长速度也快于性能提升:更大的机群虽然能更快达成目标,但消耗的计算预算也大幅攀升。尽管如此,研究人员仍将ENPIRE视为一条通往机器人自主在真实世界中持续进化的实用路径。