機器人學習領域正經歷一場靜默但深刻的範式重構。英偉達開發者博客最新發布的技術文章,系統性地引入並闡釋了“世界-行動模型”(World-Action Model,簡稱 WAM)這一新興概念,將其與當前主流的視覺-語言-動作模型(VLA)並置,為從業者與投資者勾勒出一幅從“想象”到“行動”的能力躍遷圖景。
文章首先為不熟悉術語的讀者建立了一套清晰的詞彙表。VLA 模型的核心路徑是:從一個在海量圖像-文本數據上預訓練的視覺語言模型(VLM)出發,將其適配為能夠根據視覺觀察和語言指令直接生成機器人動作的策略。這條路線將大規模 VLM 預訓練視為核心配方,典型代表如 Pi-0 和 GR00T N1。
而 WAM 則選擇了一條不同的起點。它從一個預訓練的世界模型或視頻模型骨幹網絡開始,使其能夠表徵或預測場景隨時間的變化,並據此發出相應的動作指令。這裡的“世界模型”指的是一種能夠預測未來世界狀態的模型,其預測可以基於語言、機器人動作或潛在動作等抽象條件,預測結果則可能表現為圖像、視頻、點軌跡、物體狀態或潛在特徵。英偉達自身的 Cosmos 世界基礎模型,以及經典的 World Models 論文,都是這一脈絡上的關鍵節點。
WAM 的獨特之處在於它恰好坐落在兩個傳統構建塊的交叉點上:一端是視覺運動策略,它根據當前觀察和目標指令直接映射出機器人動作;另一端是世界模型,它從當前狀態和動作抽象出發,預測未來的視覺或潛在狀態。WAM 同時承擔了這兩項任務——既預測未來狀態,也生成機器人動作。這種聯合預測的架構,使得模型不再僅僅是將語言符號“接地”到感知與運動指令上,而是試圖讓機器人真正理解動作將如何改變世界。
文章進一步剖析了支撐這一架構的技術組件。視頻骨幹網絡是 WAM 的核心表徵引擎,通常採用如 Wan 系列這樣的大型預訓練視頻生成模型。Wan 2.1 的變分自編碼器(VAE)採用 4 倍時間壓縮和 8x8 空間壓縮,而 Wan 2.2-5B 則進一步將空間壓縮提升至 16x16,大幅減少了令牌數量,為策略學習提供了更高效的特徵空間。在動作生成側,FAST 和 BEAST 等離散動作令牌化方法將連續的機器人動作轉化為令牌序列,使其訓練過程與 VLM 風格的訓練更加兼容。
訓練與評估基礎設施同樣在快速成熟。文章列舉了多個關鍵基準:DROID 數據集提供了超過 5 萬次真實世界操作演示,涵蓋多樣化的任務場景;RoboArena 構建了分佈式真實世界基準,用於評估通用機器人策略在開放式語言條件任務上的表現;RoboLab 則是一個高保真仿真基準,專門分析任務通用策略在視覺、關係和程序性能力上的表現。此外,CALVIN、LIBERO 和 RoboTwin 等基準分別聚焦於長序列任務、知識遷移與終身學習、以及雙臂操作魯棒性等細分方向。
從產業視角看,WAM 的興起意味著機器人學習正在從“語言到動作”的接地過程,轉向“世界理解到動作”的預測過程。這一轉變對算力結構、模型架構競爭以及物理 AI 的落地路徑都將產生深遠影響。VLA 路線依賴 VLM 的預訓練紅利,而 WAM 路線則更倚重視頻生成與世界模型的基礎設施——這正是英偉達 Cosmos 等平臺所押注的方向。兩種範式並非完全對立,但它們在數據需求、訓練成本(文章以 H100 GPU 小時和 ZFLOP 為計量單位)以及泛化能力上的差異,將決定未來機器人基礎模型的技術選型與資本流向。
值得注意的是,文章反覆提及“接地差距”(grounding gap)這一概念——即模型在語言層面知道該做什麼,與它在物理世界中能可靠執行什麼之間的持續落差。WAM 通過聯合預測未來狀態與動作,試圖從根本上縮小這一差距。如果這一路徑被驗證有效,那麼擁有強大視頻生成與世界模型能力的廠商,將在機器人基礎模型這一新興賽道上獲得顯著的先發優勢。