騰訊 Robotics X 實驗室與騰訊混元團隊正式發佈 Hy-Embodied-0.5-VLA(簡稱 Hy-VLA),一個覆蓋從數據採集、模型設計、預訓練、監督微調、強化學習後訓練到真實世界部署全流程的端到端視覺-語言-動作系統。該模型已以 Apache-2.0 許可證在 Hugging Face 開源,並提供了預訓練權重與完整推理代碼。
Hy-VLA 的核心架構建立在 Hy-Embodied-0.5 MoT 主幹之上,並引入了一個參數量達 3.7 億的雙塔流匹配動作專家網絡。其設計亮點包括:採用緊湊型記憶編碼器處理多幀歷史信息,以及一種與具體機械結構解耦的“增量塊”動作表示法——每隻手臂輸出 10 維相對首幀的末端執行器增量指令(含位置、六維旋轉與夾爪狀態),動作預測時域為 50 步、頻率 10 Hz。這種設計使得模型在預訓練階段僅使用單幀圖像,而在微調時激活記憶編碼器,兼顧了訓練效率與時序建模能力。
支撐 Hy-VLA 高性能的關鍵在於其訓練數據。團隊通過一套定製指尖接口配合光學運動捕捉系統,採集了超過 1 萬小時的高保真 UMI(通用操作接口)演示數據,涵蓋 70 餘項任務、約 100 萬個片段。預訓練在 64 塊 GPU(8 節點 × 8 卡)上完成,共進行 20 萬步的條件流匹配訓練,批量大小設為 1024,採用 AdamW 優化器與 bfloat16 混合精度。
在基準測試中,Hy-VLA 在 RoboTwin 2.0 上取得了當前最優結果:清潔場景成功率 90.9%,隨機場景成功率 90.1%。更重要的是,模型展現出跨具身遷移能力,已在四種不同的真實機器人平臺上驗證了魯棒性。配合 FlowPRO 偏好優化與異步推理框架,Hy-VLA 為持續靈巧操作建立了一套可擴展的範式。
此次發佈的是 Hy-VLA 的預訓練檢查點,定位為通用起點,供下游任務針對特定機器人本體進行微調。開源倉庫包含模型權重、配置、分詞器、圖像預處理配置及預計算的歸一化統計量,並提供了基礎加載與推理示例。團隊同時給出了在 RoboTwin 2.0 上進行監督微調的腳本指引,方便研究者快速復現與適配。
從產業視角看,Hy-VLA 的發佈標誌著大模型向物理世界滲透的又一實質性進展。它並非單純的實驗室模型,而是明確指向“真實世界機器人學習棧”的工程化產物,將數據採集硬件、模型架構、訓練流程與部署推理打通。對於關注具身智能的投資者而言,這一系統在跨本體遷移上的表現尤其值得留意——它意味著同一套模型底座有望服務於不同形態的機器人,降低碎片化開發成本,加速應用落地節奏。