大晓机器人(ACE ROBOTICS)联合香港中文大学多媒体实验室(CUHK MMLab)正式发布了一款名为ACE-Ego的“一脑多型”具身操作VLA模型,并已向行业开源。该模型是大晓机器人“以人为中心”(Human-centric)ACE研发范式在具身模型预训练阶段的核心落地成果,其关键突破在于提出了一种大规模第一视角人类视频与多型机器人数据高效联合预训练的新范式。

在行业公认的人形机器人操作基准RoboCasa GR1 TableTop上,ACE-Ego以72.8%的平均成功率刷新了当前最高纪录,位居榜首,大幅领先于英伟达GR00T、PI π₀.₅、京东JoyAI-RA等主流模型。在高难度的双臂操作基准RoboTwin 2.0的强域随机化测试中,该模型也取得了90.62%的成功率,展现出远超行业平均水平的环境鲁棒性。

这一成绩的背后,是大晓机器人对具身智能行业数据难题的系统性破解。传统路线通常“以机器为中心”,依赖大批量高成本的真机遥操作数据。而ACE-Ego所践行的“以人为中心”范式,则致力于将海量低成本的第一视角人类视频转化为有效的训练监督信号。为此,团队设计了四大核心机制来应对人与不同型号机器人数据在空间坐标系、本体结构、时序频率和标签质量上的四重异构难题。

具体而言,这四大机制包括:第一视角统一动作空间表达,将不同来源的动作映射到统一的机器人头部相机坐标系下;URDF本体形态映射,通过统一中间层编码让模型理解不同机器人和人体的运动学结构;时间对齐动态分块,以物理时长为标准划分动作块,解决不同控制频率数据的时序对齐问题;以及可靠性自适应目标函数,对高精度的机器人传感器数据给予全权重,而对带有重建噪声的人类视频动作标签实行通道级、数据集级和帧级的三级加权机制,在利用其多样性的同时守住精度底线。

实验数据证实了该范式的有效性。在RoboCasa基准上,引入第一视角人类视频进行联合预训练后,模型成功率从仅使用机器人数据时的68.3%提升至72.8%,实现了4.5个百分点的显著性能跨越。这充分证明了大规模人类视频数据对提升具身模型泛化能力的巨大价值。

在落地能力验证上,ACE-Ego已能稳定完成塑料袋打包、鞋子装入鞋盒等长周期、强接触的复杂零售操作,覆盖了商品整理、打包履约等典型线下零售环节。这突破了此前许多模型仅能完成简单桌面抓取的能力边界,为具身智能走向产业规模化落地提供了一套高性价比的技术方案。

从行业竞争格局看,ACE-Ego在RoboCasa GR1 TableTop基准上较第二名小鹏DIAL模型(70.2%)的任务成功率提升了2.6%,较英伟达GR00T-N1.6(47.6%)的提升幅度更是达到25.2%,同时全面领先于京东JoyAI-RA(63.2%)、高德ABot-M0(58.3%)等模型。在RoboTwin 2.0基准中,ACE-Ego在干净场景和强随机化场景下的成功率分别为91.12%和90.62%,性能衰减仅0.5个百分点,远低于行业平均水平,表明其习得的技能具备极强的环境适应性。

大晓机器人由商汤科技联合创始人王晓刚出任董事长,AI科学家陶大程院士担任首席科学家。公司此前于2025年12月提出了ACE研发范式,构建了从“环境式数据采集—开悟世界模型3.0—具身交互”的全链路技术体系。此次ACE-Ego的发布和开源,是这一范式在具身操作模型上的关键落地。公司表示,未来将在模型层面进一步融合视觉-语言-动作模型与具身世界模型,在应用层面从零售场景拓展至工业产线、柔性制造等高精尖实体产业场景。

对于AI产业投资者和关注者而言,ACE-Ego的出现和开源,意味着具身智能模型训练可能迎来一条摆脱对昂贵真机数据过度依赖的新路径。其“以人为中心”的数据范式若能大规模推广,有望降低机器人模型开发的成本门槛,加速具身智能在零售、制造等场景的商业化进程,并对产业链上下游的硬件厂商、云服务商和垂直场景伙伴产生联动影响。