銀河通用創始人王鶴：具身智慧逼近兩大里程碑時刻

王鶴在ICRA 2026演講稱，具身智慧正邁向AlphaGo和ChatGPT時刻，銀河通用已實現人形機器人網球對抗等突破。

在奧地利維也納舉行的國際機器人與自動化會議（ICRA 2026）上，具身智慧領域的前沿探索者、銀河通用（Galbot）創始人兼技術長王鶴，於6月3日的行業主題演講中，系統闡述了具身智慧從專項突破邁向通用泛化的清晰路徑。他借用AI發展史上的兩個標誌性事件，為機器人領域劃定了自己的座標：一個已經觸及的“AlphaGo時刻”，以及一個正在逼近的“ChatGPT時刻”。

王鶴所指的“AlphaGo時刻”，並非簡單的棋類博弈勝利，而是指機器人在特定高難度任務上，通過自主學習與模擬到現實的遷移（Sim2Real），達到甚至超越人類頂尖水平的臨界點。他披露了銀河通用在此方向上的兩項核心實證。其一，團隊實現了完全自主的人形機器人網球對抗。這要求機器人具備極致的全身動態協調、即時環境感知與毫秒級決策能力，是運動智慧與硬體整合度的綜合考驗。其二，在精細操作層面，其靈巧手已擺脫對人工遙操作的依賴。通過構建一個“靈巧世界模型”，機器人能夠理解工具（如螺絲刀）的物理特性與操作邏輯，像人類一樣完成精密裝配等複雜任務。這標誌著機器人從簡單的抓取放置，進化到了理解並利用工具來改變環境的新階段。

然而，專項技能的突破只是序章。王鶴將更宏大的願景定義為具身智慧的“ChatGPT時刻”——即一個通用、可泛化、能理解自然語言指令並執行開放式長週期物理任務的模型出現。他認為，實現這一目標的關鍵在於構建一個全新的架構：“世界動作模型”（World Action Model, WAM）。該模型的核心思想是深度融合視覺語言動作模型（VLA）與世界模型。VLA模型負責將感知與語言指令轉化為動作序列，而世界模型則賦予機器人對物理世界執行規律的內部推演能力，使其能預測動作後果並規劃未來。

作為邁向WAM的關鍵一步，王鶴介紹了其團隊最新的LDA模型。該模型的突破在於，它能夠在隱空間中進行任務推演，並據此執行跨越多個步驟的長週期任務。更引人注目的是，LDA展現出了強大的泛化能力，不僅能處理訓練中未見過的任務組合，還能跨不同的機器人硬體構型進行遷移。這意味著，為某款人形機器人訓練的操縱技能，有望快速部署到形態迥異的機械臂或移動平台上，這為降低機器人應用成本、加速規模化落地提供了技術上的想象空間。

從產業視角觀察，王鶴的演講勾勒出具身智慧從“能跑能跳”的炫技階段，向“能工巧匠”的價值創造階段躍遷的路線圖。當機器人開始自主使用工具、適應非結構化環境並理解抽象指令時，其應用邊界將從受控的工廠車間，大幅擴充套件至家庭服務、醫療護理、柔性製造等更廣闊的場景。這一程序不僅依賴於演算法層面的“世界動作模型”創新，也必將對上游的算力晶片、模擬基礎設施以及專用能源供給提出全新的需求，形成對整個AI產業鏈條的倒逼與拉動。ICRA 2026上的這一聲音，為衡量通用機器人何時真正叩開AGI大門，提供了一個具體而清晰的觀測框架。

銀河通用創始人王鶴：具身智慧逼近兩大里程碑時刻

延伸閱讀

相關深度報道

相關每日新聞