腾讯 Robotics X 实验室与腾讯混元团队正式发布 Hy-Embodied-0.5-VLA(简称 Hy-VLA),一个覆盖从数据采集、模型设计、预训练、监督微调、强化学习后训练到真实世界部署全流程的端到端视觉-语言-动作系统。该模型已以 Apache-2.0 许可证在 Hugging Face 开源,并提供了预训练权重与完整推理代码。

Hy-VLA 的核心架构建立在 Hy-Embodied-0.5 MoT 主干之上,并引入了一个参数量达 3.7 亿的双塔流匹配动作专家网络。其设计亮点包括:采用紧凑型记忆编码器处理多帧历史信息,以及一种与具体机械结构解耦的“增量块”动作表示法——每只手臂输出 10 维相对首帧的末端执行器增量指令(含位置、六维旋转与夹爪状态),动作预测时域为 50 步、频率 10 Hz。这种设计使得模型在预训练阶段仅使用单帧图像,而在微调时激活记忆编码器,兼顾了训练效率与时序建模能力。

支撑 Hy-VLA 高性能的关键在于其训练数据。团队通过一套定制指尖接口配合光学运动捕捉系统,采集了超过 1 万小时的高保真 UMI(通用操作接口)演示数据,涵盖 70 余项任务、约 100 万个片段。预训练在 64 块 GPU(8 节点 × 8 卡)上完成,共进行 20 万步的条件流匹配训练,批量大小设为 1024,采用 AdamW 优化器与 bfloat16 混合精度。

在基准测试中,Hy-VLA 在 RoboTwin 2.0 上取得了当前最优结果:清洁场景成功率 90.9%,随机场景成功率 90.1%。更重要的是,模型展现出跨具身迁移能力,已在四种不同的真实机器人平台上验证了鲁棒性。配合 FlowPRO 偏好优化与异步推理框架,Hy-VLA 为持续灵巧操作建立了一套可扩展的范式。

此次发布的是 Hy-VLA 的预训练检查点,定位为通用起点,供下游任务针对特定机器人本体进行微调。开源仓库包含模型权重、配置、分词器、图像预处理配置及预计算的归一化统计量,并提供了基础加载与推理示例。团队同时给出了在 RoboTwin 2.0 上进行监督微调的脚本指引,方便研究者快速复现与适配。

从产业视角看,Hy-VLA 的发布标志着大模型向物理世界渗透的又一实质性进展。它并非单纯的实验室模型,而是明确指向“真实世界机器人学习栈”的工程化产物,将数据采集硬件、模型架构、训练流程与部署推理打通。对于关注具身智能的投资者而言,这一系统在跨本体迁移上的表现尤其值得留意——它意味着同一套模型底座有望服务于不同形态的机器人,降低碎片化开发成本,加速应用落地节奏。