大曉機器人(ACE ROBOTICS)聯合香港中文大學多媒體實驗室(CUHK MMLab)正式發佈了一款名為ACE-Ego的“一腦多型”具身操作VLA模型,並已向行業開源。該模型是大曉機器人“以人為中心”(Human-centric)ACE研發範式在具身模型預訓練階段的核心落地成果,其關鍵突破在於提出了一種大規模第一視角人類視頻與多型機器人數據高效聯合預訓練的新範式。
在行業公認的人形機器人操作基準RoboCasa GR1 TableTop上,ACE-Ego以72.8%的平均成功率刷新了當前最高紀錄,位居榜首,大幅領先於英偉達GR00T、PI π₀.₅、京東JoyAI-RA等主流模型。在高難度的雙臂操作基準RoboTwin 2.0的強域隨機化測試中,該模型也取得了90.62%的成功率,展現出遠超行業平均水平的環境魯棒性。
這一成績的背後,是大曉機器人對具身智能行業數據難題的系統性破解。傳統路線通常“以機器為中心”,依賴大批量高成本的真機遙操作數據。而ACE-Ego所踐行的“以人為中心”範式,則致力於將海量低成本的第一視角人類視頻轉化為有效的訓練監督信號。為此,團隊設計了四大核心機制來應對人與不同型號機器人數據在空間座標系、本體結構、時序頻率和標籤質量上的四重異構難題。
具體而言,這四大機制包括:第一視角統一動作空間表達,將不同來源的動作映射到統一的機器人頭部相機座標系下;URDF本體形態映射,通過統一中間層編碼讓模型理解不同機器人和人體的運動學結構;時間對齊動態分塊,以物理時長為標準劃分動作塊,解決不同控制頻率數據的時序對齊問題;以及可靠性自適應目標函數,對高精度的機器人傳感器數據給予全權重,而對帶有重建噪聲的人類視頻動作標籤實行通道級、數據集級和幀級的三級加權機制,在利用其多樣性的同時守住精度底線。
實驗數據證實了該範式的有效性。在RoboCasa基準上,引入第一視角人類視頻進行聯合預訓練後,模型成功率從僅使用機器人數據時的68.3%提升至72.8%,實現了4.5個百分點的顯著性能跨越。這充分證明了大規模人類視頻數據對提升具身模型泛化能力的巨大價值。
在落地能力驗證上,ACE-Ego已能穩定完成塑料袋打包、鞋子裝入鞋盒等長週期、強接觸的複雜零售操作,覆蓋了商品整理、打包履約等典型線下零售環節。這突破了此前許多模型僅能完成簡單桌面抓取的能力邊界,為具身智能走向產業規模化落地提供了一套高性價比的技術方案。
從行業競爭格局看,ACE-Ego在RoboCasa GR1 TableTop基準上較第二名小鵬DIAL模型(70.2%)的任務成功率提升了2.6%,較英偉達GR00T-N1.6(47.6%)的提升幅度更是達到25.2%,同時全面領先於京東JoyAI-RA(63.2%)、高德ABot-M0(58.3%)等模型。在RoboTwin 2.0基準中,ACE-Ego在乾淨場景和強隨機化場景下的成功率分別為91.12%和90.62%,性能衰減僅0.5個百分點,遠低於行業平均水平,表明其習得的技能具備極強的環境適應性。
大曉機器人由商湯科技聯合創始人王曉剛出任董事長,AI科學家陶大程院士擔任首席科學家。公司此前於2025年12月提出了ACE研發範式,構建了從“環境式數據採集—開悟世界模型3.0—具身交互”的全鏈路技術體系。此次ACE-Ego的發佈和開源,是這一範式在具身操作模型上的關鍵落地。公司表示,未來將在模型層面進一步融合視覺-語言-動作模型與具身世界模型,在應用層面從零售場景拓展至工業產線、柔性製造等高精尖實體產業場景。
對於AI產業投資者和關注者而言,ACE-Ego的出現和開源,意味著具身智能模型訓練可能迎來一條擺脫對昂貴真機數據過度依賴的新路徑。其“以人為中心”的數據範式若能大規模推廣,有望降低機器人模型開發的成本門檻,加速具身智能在零售、製造等場景的商業化進程,並對產業鏈上下游的硬件廠商、雲服務商和垂直場景夥伴產生聯動影響。