机器人学习领域正经历一场静默但深刻的范式重构。英伟达开发者博客最新发布的技术文章,系统性地引入并阐释了“世界-行动模型”(World-Action Model,简称 WAM)这一新兴概念,将其与当前主流的视觉-语言-动作模型(VLA)并置,为从业者与投资者勾勒出一幅从“想象”到“行动”的能力跃迁图景。

文章首先为不熟悉术语的读者建立了一套清晰的词汇表。VLA 模型的核心路径是:从一个在海量图像-文本数据上预训练的视觉语言模型(VLM)出发,将其适配为能够根据视觉观察和语言指令直接生成机器人动作的策略。这条路线将大规模 VLM 预训练视为核心配方,典型代表如 Pi-0 和 GR00T N1。

而 WAM 则选择了一条不同的起点。它从一个预训练的世界模型或视频模型骨干网络开始,使其能够表征或预测场景随时间的变化,并据此发出相应的动作指令。这里的“世界模型”指的是一种能够预测未来世界状态的模型,其预测可以基于语言、机器人动作或潜在动作等抽象条件,预测结果则可能表现为图像、视频、点轨迹、物体状态或潜在特征。英伟达自身的 Cosmos 世界基础模型,以及经典的 World Models 论文,都是这一脉络上的关键节点。

WAM 的独特之处在于它恰好坐落在两个传统构建块的交叉点上:一端是视觉运动策略,它根据当前观察和目标指令直接映射出机器人动作;另一端是世界模型,它从当前状态和动作抽象出发,预测未来的视觉或潜在状态。WAM 同时承担了这两项任务——既预测未来状态,也生成机器人动作。这种联合预测的架构,使得模型不再仅仅是将语言符号“接地”到感知与运动指令上,而是试图让机器人真正理解动作将如何改变世界。

文章进一步剖析了支撑这一架构的技术组件。视频骨干网络是 WAM 的核心表征引擎,通常采用如 Wan 系列这样的大型预训练视频生成模型。Wan 2.1 的变分自编码器(VAE)采用 4 倍时间压缩和 8x8 空间压缩,而 Wan 2.2-5B 则进一步将空间压缩提升至 16x16,大幅减少了令牌数量,为策略学习提供了更高效的特征空间。在动作生成侧,FAST 和 BEAST 等离散动作令牌化方法将连续的机器人动作转化为令牌序列,使其训练过程与 VLM 风格的训练更加兼容。

训练与评估基础设施同样在快速成熟。文章列举了多个关键基准:DROID 数据集提供了超过 5 万次真实世界操作演示,涵盖多样化的任务场景;RoboArena 构建了分布式真实世界基准,用于评估通用机器人策略在开放式语言条件任务上的表现;RoboLab 则是一个高保真仿真基准,专门分析任务通用策略在视觉、关系和程序性能力上的表现。此外,CALVIN、LIBERO 和 RoboTwin 等基准分别聚焦于长序列任务、知识迁移与终身学习、以及双臂操作鲁棒性等细分方向。

从产业视角看,WAM 的兴起意味着机器人学习正在从“语言到动作”的接地过程,转向“世界理解到动作”的预测过程。这一转变对算力结构、模型架构竞争以及物理 AI 的落地路径都将产生深远影响。VLA 路线依赖 VLM 的预训练红利,而 WAM 路线则更倚重视频生成与世界模型的基础设施——这正是英伟达 Cosmos 等平台所押注的方向。两种范式并非完全对立,但它们在数据需求、训练成本(文章以 H100 GPU 小时和 ZFLOP 为计量单位)以及泛化能力上的差异,将决定未来机器人基础模型的技术选型与资本流向。

值得注意的是,文章反复提及“接地差距”(grounding gap)这一概念——即模型在语言层面知道该做什么,与它在物理世界中能可靠执行什么之间的持续落差。WAM 通过联合预测未来状态与动作,试图从根本上缩小这一差距。如果这一路径被验证有效,那么拥有强大视频生成与世界模型能力的厂商,将在机器人基础模型这一新兴赛道上获得显著的先发优势。