騰訊發佈 Hy-VLA 具身視覺語言動作系統

騰訊推出Hy-Embodied-0.5-VLA模型，實現從視覺語言到機器人動作的端到端控制。

騰訊 Robotics X 實驗室與騰訊混元團隊正式發佈 Hy-Embodied-0.5-VLA（簡稱 Hy-VLA），一個覆蓋從數據採集、模型設計、預訓練、監督微調、強化學習後訓練到真實世界部署全流程的端到端視覺-語言-動作系統。該模型已以 Apache-2.0 許可證在 Hugging Face 開源，並提供了預訓練權重與完整推理代碼。

Hy-VLA 的核心架構建立在 Hy-Embodied-0.5 MoT 主幹之上，並引入了一個參數量達 3.7 億的雙塔流匹配動作專家網絡。其設計亮點包括：採用緊湊型記憶編碼器處理多幀歷史信息，以及一種與具體機械結構解耦的“增量塊”動作表示法——每隻手臂輸出 10 維相對首幀的末端執行器增量指令（含位置、六維旋轉與夾爪狀態），動作預測時域為 50 步、頻率 10 Hz。這種設計使得模型在預訓練階段僅使用單幀圖像，而在微調時激活記憶編碼器，兼顧了訓練效率與時序建模能力。

支撐 Hy-VLA 高性能的關鍵在於其訓練數據。團隊通過一套定製指尖接口配合光學運動捕捉系統，採集了超過 1 萬小時的高保真 UMI（通用操作接口）演示數據，涵蓋 70 餘項任務、約 100 萬個片段。預訓練在 64 塊 GPU（8 節點 × 8 卡）上完成，共進行 20 萬步的條件流匹配訓練，批量大小設為 1024，採用 AdamW 優化器與 bfloat16 混合精度。

在基準測試中，Hy-VLA 在 RoboTwin 2.0 上取得了當前最優結果：清潔場景成功率 90.9%，隨機場景成功率 90.1%。更重要的是，模型展現出跨具身遷移能力，已在四種不同的真實機器人平臺上驗證了魯棒性。配合 FlowPRO 偏好優化與異步推理框架，Hy-VLA 為持續靈巧操作建立了一套可擴展的範式。

此次發佈的是 Hy-VLA 的預訓練檢查點，定位為通用起點，供下游任務針對特定機器人本體進行微調。開源倉庫包含模型權重、配置、分詞器、圖像預處理配置及預計算的歸一化統計量，並提供了基礎加載與推理示例。團隊同時給出了在 RoboTwin 2.0 上進行監督微調的腳本指引，方便研究者快速復現與適配。

從產業視角看，Hy-VLA 的發佈標誌著大模型向物理世界滲透的又一實質性進展。它並非單純的實驗室模型，而是明確指向“真實世界機器人學習棧”的工程化產物，將數據採集硬件、模型架構、訓練流程與部署推理打通。對於關注具身智能的投資者而言，這一系統在跨本體遷移上的表現尤其值得留意——它意味著同一套模型底座有望服務於不同形態的機器人，降低碎片化開發成本，加速應用落地節奏。

騰訊發佈 Hy-VLA 具身視覺語言動作系統

延伸閱讀

相關深度報道

相關每日新聞