腾讯发布 Hy-VLA 具身视觉语言动作系统

腾讯推出Hy-Embodied-0.5-VLA模型，实现从视觉语言到机器人动作的端到端控制。

腾讯 Robotics X 实验室与腾讯混元团队正式发布 Hy-Embodied-0.5-VLA（简称 Hy-VLA），一个覆盖从数据采集、模型设计、预训练、监督微调、强化学习后训练到真实世界部署全流程的端到端视觉-语言-动作系统。该模型已以 Apache-2.0 许可证在 Hugging Face 开源，并提供了预训练权重与完整推理代码。

Hy-VLA 的核心架构建立在 Hy-Embodied-0.5 MoT 主干之上，并引入了一个参数量达 3.7 亿的双塔流匹配动作专家网络。其设计亮点包括：采用紧凑型记忆编码器处理多帧历史信息，以及一种与具体机械结构解耦的“增量块”动作表示法——每只手臂输出 10 维相对首帧的末端执行器增量指令（含位置、六维旋转与夹爪状态），动作预测时域为 50 步、频率 10 Hz。这种设计使得模型在预训练阶段仅使用单帧图像，而在微调时激活记忆编码器，兼顾了训练效率与时序建模能力。

支撑 Hy-VLA 高性能的关键在于其训练数据。团队通过一套定制指尖接口配合光学运动捕捉系统，采集了超过 1 万小时的高保真 UMI（通用操作接口）演示数据，涵盖 70 余项任务、约 100 万个片段。预训练在 64 块 GPU（8 节点 × 8 卡）上完成，共进行 20 万步的条件流匹配训练，批量大小设为 1024，采用 AdamW 优化器与 bfloat16 混合精度。

在基准测试中，Hy-VLA 在 RoboTwin 2.0 上取得了当前最优结果：清洁场景成功率 90.9%，随机场景成功率 90.1%。更重要的是，模型展现出跨具身迁移能力，已在四种不同的真实机器人平台上验证了鲁棒性。配合 FlowPRO 偏好优化与异步推理框架，Hy-VLA 为持续灵巧操作建立了一套可扩展的范式。

此次发布的是 Hy-VLA 的预训练检查点，定位为通用起点，供下游任务针对特定机器人本体进行微调。开源仓库包含模型权重、配置、分词器、图像预处理配置及预计算的归一化统计量，并提供了基础加载与推理示例。团队同时给出了在 RoboTwin 2.0 上进行监督微调的脚本指引，方便研究者快速复现与适配。

从产业视角看，Hy-VLA 的发布标志着大模型向物理世界渗透的又一实质性进展。它并非单纯的实验室模型，而是明确指向“真实世界机器人学习栈”的工程化产物，将数据采集硬件、模型架构、训练流程与部署推理打通。对于关注具身智能的投资者而言，这一系统在跨本体迁移上的表现尤其值得留意——它意味着同一套模型底座有望服务于不同形态的机器人，降低碎片化开发成本，加速应用落地节奏。

腾讯发布 Hy-VLA 具身视觉语言动作系统

延伸阅读

相关深度报道

相关每日新闻