6月24日,通用具身智能企業RoboScience機器科學在深圳舉辦發佈會,正式推出自研的通用具身大模型Visics,並首次完整披露其底層技術架構VLOA(Vision-Language-Object-Action)。公司創始人兼CEO田野、聯合創始人兼執行總裁汪濤在會上深度解讀了模型的技術邏輯、數據體系及商業化規劃,現場還展示了多項真實場景下的複雜操作任務,包括被業內視為“登月級”挑戰的傢俱拼裝。
Visics大模型的核心突破在於其獨特的VLOA架構。田野指出,當前機器人操作普遍面臨泛化能力差、精細操作難、長程任務誤差累積三大瓶頸。VLOA架構創新性地引入Object Trajectory(物體3D點雲軌跡)作為中間接口,將上層的“認知”與下層的“執行”徹底解耦。具體而言,模型融合了“具身世界模型”和“通用操作模型”兩大引擎:上層世界模型負責理解物理世界並預演物體的連續3D點雲軌跡,下層操作模型則將軌跡轉化為不同機器人的物理控制信號。這種設計使得Visics能夠實現三大維度泛化——指導任意機器人、操作任意物體、完成任意任務,在抓取成功率、姿態多樣性和計算速度上均較現有方法有顯著提升。
數據是具身智能模型能力的根基,而傳統依賴真機採集的方案正面臨成本與產能的雙重天花板。RoboScience機器科學選擇了一條不同的路徑,構建了以自研高精度仿真引擎RoboMirage為核心的“仿真+視頻”雙數據飛輪。汪濤分享稱,這一體系將單條數據的獲取成本降至傳統方案的1/20至1/200,同時以每週數十萬小時的增速持續擴展。其中,具身世界模型的預訓練基於海量互聯網視頻數據,團隊已積累數百萬小時以物體為中心的高維多模態操作數據集,目標在2026年構建上千萬小時的數據集;通用操作模型則通過RoboMirage積累了數百億次高質量操作軌跡數據,2026年目標為超過1萬億次操作軌跡。這種數據策略有效降低了對昂貴真機數據的依賴,為模型持續進化提供了規模化燃料。
發佈會現場,Visics大模型展示了多項高難度操作能力。在傢俱拼裝任務中,機器人讀取說明書後自主完成零件識別、定位、多步驟分解和雙臂協同運動,實現了毫米級精度的插接與抗干擾恢復——當人為拆解已裝好的部件時,機器人能自動恢復狀態並繼續完成後續步驟。此外,模型還展示了跨本體靈巧手抓取(如青椒包覆抓取、西瓜瓣捏取)、精細力控操作(如開信封、立硬幣、針管注射)以及動態傳送帶抓取等任務,全面驗證了其在任意物體抓取、精細操作和長程任務上的通用能力。
RoboScience機器科學擁有一支“學術+產業”雙輪驅動的團隊。首席科學家邵林團隊連續兩年獲得ICRA最佳論文獎或提名,為亞洲唯一獲此殊榮的團隊;CEO田野曾擔任蘋果AI Platform技術負責人;聯合創始人劉朋海擁有科沃斯集團二十年產品量產經驗,汪濤具備近十年產業投資與募資經歷。公司已獲得京東集團、商湯科技、達晨財智、招商局創投等多家機構的投資,在北京、深圳、蘇州、杭州設有研發和生產中心。
在商業化路徑上,RoboScience機器科學選擇先從物體維度的泛化操作切入,而非直接進入工業場景與自動化方案競爭。汪濤表示,商超、電商物流等場景天然面臨海量SKU的揀選與補貨需求,是驗證物體維度泛化能力的最佳試驗場,真實場景中產生的數據又能反哺模型迭代。公司計劃分階段推進落地:當前聚焦模型能力打磨和場景POC驗證;中短期擴展至更多任務類型和跨本體部署,推動自研硬件本體量產,並推出具身智能操作系統與開發平臺;長期則構建全球化機器人應用生態,進入家庭等C端場景。商業模式上,由於模型學習不依賴特定硬件數據,公司可靈活選擇純軟件授權、控制器方案等多種交付方式,既服務自研本體,也賦能其他機器人企業。
田野在總結中強調,Visics大模型的目標是成為人類文明的增幅器,而非替代者。從技術架構的原創性到數據體系的規模化突破,再到軟硬一體的商業閉環,RoboScience機器科學正試圖在具身智能領域走出一條從模型泛化到場景落地的清晰路徑。對於關注AI產業的投資者而言,這一發布不僅展示了具身智能在操作能力上的最新進展,也揭示了數據飛輪與跨本體泛化在降低部署成本、加速規模化方面的潛在價值。