RoboScience发布Visics大模型，首展VLOA双引擎架构

RoboScience发布通用具身大模型Visics，展示VLOA架构及家具拼装应用

6月24日，通用具身智能企业RoboScience机器科学在深圳举办发布会，正式推出自研的通用具身大模型Visics，并首次完整披露其底层技术架构VLOA（Vision-Language-Object-Action）。公司创始人兼CEO田野、联合创始人兼执行总裁汪涛在会上深度解读了模型的技术逻辑、数据体系及商业化规划，现场还展示了多项真实场景下的复杂操作任务，包括被业内视为“登月级”挑战的家具拼装。

Visics大模型的核心突破在于其独特的VLOA架构。田野指出，当前机器人操作普遍面临泛化能力差、精细操作难、长程任务误差累积三大瓶颈。VLOA架构创新性地引入Object Trajectory（物体3D点云轨迹）作为中间接口，将上层的“认知”与下层的“执行”彻底解耦。具体而言，模型融合了“具身世界模型”和“通用操作模型”两大引擎：上层世界模型负责理解物理世界并预演物体的连续3D点云轨迹，下层操作模型则将轨迹转化为不同机器人的物理控制信号。这种设计使得Visics能够实现三大维度泛化——指导任意机器人、操作任意物体、完成任意任务，在抓取成功率、姿态多样性和计算速度上均较现有方法有显著提升。

数据是具身智能模型能力的根基，而传统依赖真机采集的方案正面临成本与产能的双重天花板。RoboScience机器科学选择了一条不同的路径，构建了以自研高精度仿真引擎RoboMirage为核心的“仿真+视频”双数据飞轮。汪涛分享称，这一体系将单条数据的获取成本降至传统方案的1/20至1/200，同时以每周数十万小时的增速持续扩展。其中，具身世界模型的预训练基于海量互联网视频数据，团队已积累数百万小时以物体为中心的高维多模态操作数据集，目标在2026年构建上千万小时的数据集；通用操作模型则通过RoboMirage积累了数百亿次高质量操作轨迹数据，2026年目标为超过1万亿次操作轨迹。这种数据策略有效降低了对昂贵真机数据的依赖，为模型持续进化提供了规模化燃料。

发布会现场，Visics大模型展示了多项高难度操作能力。在家具拼装任务中，机器人读取说明书后自主完成零件识别、定位、多步骤分解和双臂协同运动，实现了毫米级精度的插接与抗干扰恢复——当人为拆解已装好的部件时，机器人能自动恢复状态并继续完成后续步骤。此外，模型还展示了跨本体灵巧手抓取（如青椒包覆抓取、西瓜瓣捏取）、精细力控操作（如开信封、立硬币、针管注射）以及动态传送带抓取等任务，全面验证了其在任意物体抓取、精细操作和长程任务上的通用能力。

RoboScience机器科学拥有一支“学术+产业”双轮驱动的团队。首席科学家邵林团队连续两年获得ICRA最佳论文奖或提名，为亚洲唯一获此殊荣的团队；CEO田野曾担任苹果AI Platform技术负责人；联合创始人刘朋海拥有科沃斯集团二十年产品量产经验，汪涛具备近十年产业投资与募资经历。公司已获得京东集团、商汤科技、达晨财智、招商局创投等多家机构的投资，在北京、深圳、苏州、杭州设有研发和生产中心。

在商业化路径上，RoboScience机器科学选择先从物体维度的泛化操作切入，而非直接进入工业场景与自动化方案竞争。汪涛表示，商超、电商物流等场景天然面临海量SKU的拣选与补货需求，是验证物体维度泛化能力的最佳试验场，真实场景中产生的数据又能反哺模型迭代。公司计划分阶段推进落地：当前聚焦模型能力打磨和场景POC验证；中短期扩展至更多任务类型和跨本体部署，推动自研硬件本体量产，并推出具身智能操作系统与开发平台；长期则构建全球化机器人应用生态，进入家庭等C端场景。商业模式上，由于模型学习不依赖特定硬件数据，公司可灵活选择纯软件授权、控制器方案等多种交付方式，既服务自研本体，也赋能其他机器人企业。

田野在总结中强调，Visics大模型的目标是成为人类文明的增幅器，而非替代者。从技术架构的原创性到数据体系的规模化突破，再到软硬一体的商业闭环，RoboScience机器科学正试图在具身智能领域走出一条从模型泛化到场景落地的清晰路径。对于关注AI产业的投资者而言，这一发布不仅展示了具身智能在操作能力上的最新进展，也揭示了数据飞轮与跨本体泛化在降低部署成本、加速规模化方面的潜在价值。

RoboScience发布Visics大模型，首展VLOA双引擎架构

延伸阅读

相关深度报道

相关每日新闻