在奧地利維也納舉行的國際機器人與自動化會議(ICRA 2026)上,具身智能領域的前沿探索者、銀河通用(Galbot)創始人兼首席技術官王鶴,於6月3日的行業主題演講中,系統闡述了具身智能從專項突破邁向通用泛化的清晰路徑。他借用AI發展史上的兩個標誌性事件,為機器人領域劃定了自己的座標:一個已經觸及的“AlphaGo時刻”,以及一個正在逼近的“ChatGPT時刻”。
王鶴所指的“AlphaGo時刻”,並非簡單的棋類博弈勝利,而是指機器人在特定高難度任務上,通過自主學習與仿真到現實的遷移(Sim2Real),達到甚至超越人類頂尖水平的臨界點。他披露了銀河通用在此方向上的兩項核心實證。其一,團隊實現了完全自主的人形機器人網球對抗。這要求機器人具備極致的全身動態協調、實時環境感知與毫秒級決策能力,是運動智能與硬件集成度的綜合考驗。其二,在精細操作層面,其靈巧手已擺脫對人工遙操作的依賴。通過構建一個“靈巧世界模型”,機器人能夠理解工具(如螺絲刀)的物理特性與操作邏輯,像人類一樣完成精密裝配等複雜任務。這標誌著機器人從簡單的抓取放置,進化到了理解並利用工具來改變環境的新階段。
然而,專項技能的突破只是序章。王鶴將更宏大的願景定義為具身智能的“ChatGPT時刻”——即一個通用、可泛化、能理解自然語言指令並執行開放式長週期物理任務的模型出現。他認為,實現這一目標的關鍵在於構建一個全新的架構:“世界動作模型”(World Action Model, WAM)。該模型的核心思想是深度融合視覺語言動作模型(VLA)與世界模型。VLA模型負責將感知與語言指令轉化為動作序列,而世界模型則賦予機器人對物理世界運行規律的內部推演能力,使其能預測動作後果並規劃未來。
作為邁向WAM的關鍵一步,王鶴介紹了其團隊最新的LDA模型。該模型的突破在於,它能夠在隱空間中進行任務推演,並據此執行跨越多個步驟的長週期任務。更引人注目的是,LDA展現出了強大的泛化能力,不僅能處理訓練中未見過的任務組合,還能跨不同的機器人硬件構型進行遷移。這意味著,為某款人形機器人訓練的操縱技能,有望快速部署到形態迥異的機械臂或移動平臺上,這為降低機器人應用成本、加速規模化落地提供了技術上的想象空間。
從產業視角觀察,王鶴的演講勾勒出具身智能從“能跑能跳”的炫技階段,向“能工巧匠”的價值創造階段躍遷的路線圖。當機器人開始自主使用工具、適應非結構化環境並理解抽象指令時,其應用邊界將從受控的工廠車間,大幅擴展至家庭服務、醫療護理、柔性製造等更廣闊的場景。這一進程不僅依賴於算法層面的“世界動作模型”創新,也必將對上游的算力芯片、仿真基礎設施以及專用能源供給提出全新的需求,形成對整個AI產業鏈條的倒逼與拉動。ICRA 2026上的這一聲音,為衡量通用機器人何時真正叩開AGI大門,提供了一個具體而清晰的觀測框架。