自变量机器人正式发布了一款名为X-Tokenizer的跨模态具身动作分词器,为视觉-语言-动作(VLA)模型的预训练提供了新的技术路径。该分词器将动作离散化从单纯的“压缩-重建”问题,重新定义为多模态推理与动作之间的语义接口学习,直击当前VLA模型中视觉语言模型(VLM)的离散输出与机器人所需连续指令之间的表示不匹配难题。
在VLA架构中,预训练的VLM接收图像和语言指令后输出隐藏状态,动作专家再将其转化为连续动作指令。但两者模态不同,传统做法依赖动作分词器将连续动作压缩为离散Token,以桥接这一鸿沟。自变量机器人的核心发现是:动作分词器拆分出的Token是否具备语义,直接决定了预训练模型的收敛速度和最终输出连续动作的性能。
X-Tokenizer采用编码器-语义残差量化(SRQ)-解码器的轻量级架构,用SRQ替代了标准的残差向量量化(RVQ)。其关键创新在于对残差量化施加非对称监督:第一层通过掩码动作建模学习粗粒度动作意图,形成离散动作语言;更深层级则保留细粒度几何残差。在此基础上,模型进一步引入与预训练VLM表征空间的对比对齐,以及未来帧视觉-语言特征预测两类跨模态监督信号,使动作Token在预训练阶段即与视觉、语言语义共享同一表示空间。
这一设计带来了显著的抗噪声能力。当动作注入噪声时,X-Tokenizer通过SRQ拆分出的动作ID几乎保持不变,在噪声水平σ=0.008下词错误率(WER)仅为0.526;相比之下,FAST分词器的WER高达1.445,说明其难以区分主要动作与噪声,发生了语义反转。这得益于SRQ将粗粒度意图与细粒度修正分配到不同层级,让噪声被深层吸收,而识别出的动作意图保持稳定。
实验结果显示,X-Tokenizer在涵盖17个机械臂系列、240万条轨迹(包含20亿动作帧)的数据集上预训练后冻结,可作为一个可复用的表示模块插入VLA主干。相比FAST,其多模态对齐能力提升13.5%,长程任务性能提升8.25%,在RoboTwin 2.0基准评测中得分达到82.8,在简单和困难任务上均超过业界主流模型Pi 0、Pi 0.5和X-VLA。在真机测试的7个桌面任务中,X-Tokenizer在长程推理任务上表现尤为突出,性能提升达8.25%。
从产业视角看,X-Tokenizer的提出意味着动作分词器的设计思路正在发生转变:不应仅基于动作本身做压缩优化,而应将其定位为动作模态与视觉-语言模态之间的语义桥梁。这一理念若被广泛采纳,可能推动VLA预训练范式的演进,使机器人能够更高效地利用海量多模态数据,加速具身智能在复杂场景下的落地。对于关注AI模型层与应用层的投资者而言,此类底层表示技术的突破,往往预示着上游训练效率的提升和下游任务性能的改善,值得持续跟踪其在更多机械臂平台和真实环境中的泛化表现。