自变量发布X-Tokenizer：具身动作分词器多模态对齐提升13.5%

自变量机器人推出跨模态动作分词器X-Tokenizer，长程任务性能提升8.25%

自变量机器人正式发布了一款名为X-Tokenizer的跨模态具身动作分词器，为视觉-语言-动作（VLA）模型的预训练提供了新的技术路径。该分词器将动作离散化从单纯的“压缩-重建”问题，重新定义为多模态推理与动作之间的语义接口学习，直击当前VLA模型中视觉语言模型（VLM）的离散输出与机器人所需连续指令之间的表示不匹配难题。

在VLA架构中，预训练的VLM接收图像和语言指令后输出隐藏状态，动作专家再将其转化为连续动作指令。但两者模态不同，传统做法依赖动作分词器将连续动作压缩为离散Token，以桥接这一鸿沟。自变量机器人的核心发现是：动作分词器拆分出的Token是否具备语义，直接决定了预训练模型的收敛速度和最终输出连续动作的性能。

X-Tokenizer采用编码器-语义残差量化（SRQ）-解码器的轻量级架构，用SRQ替代了标准的残差向量量化（RVQ）。其关键创新在于对残差量化施加非对称监督：第一层通过掩码动作建模学习粗粒度动作意图，形成离散动作语言；更深层级则保留细粒度几何残差。在此基础上，模型进一步引入与预训练VLM表征空间的对比对齐，以及未来帧视觉-语言特征预测两类跨模态监督信号，使动作Token在预训练阶段即与视觉、语言语义共享同一表示空间。

这一设计带来了显著的抗噪声能力。当动作注入噪声时，X-Tokenizer通过SRQ拆分出的动作ID几乎保持不变，在噪声水平σ=0.008下词错误率（WER）仅为0.526；相比之下，FAST分词器的WER高达1.445，说明其难以区分主要动作与噪声，发生了语义反转。这得益于SRQ将粗粒度意图与细粒度修正分配到不同层级，让噪声被深层吸收，而识别出的动作意图保持稳定。

实验结果显示，X-Tokenizer在涵盖17个机械臂系列、240万条轨迹（包含20亿动作帧）的数据集上预训练后冻结，可作为一个可复用的表示模块插入VLA主干。相比FAST，其多模态对齐能力提升13.5%，长程任务性能提升8.25%，在RoboTwin 2.0基准评测中得分达到82.8，在简单和困难任务上均超过业界主流模型Pi 0、Pi 0.5和X-VLA。在真机测试的7个桌面任务中，X-Tokenizer在长程推理任务上表现尤为突出，性能提升达8.25%。

从产业视角看，X-Tokenizer的提出意味着动作分词器的设计思路正在发生转变：不应仅基于动作本身做压缩优化，而应将其定位为动作模态与视觉-语言模态之间的语义桥梁。这一理念若被广泛采纳，可能推动VLA预训练范式的演进，使机器人能够更高效地利用海量多模态数据，加速具身智能在复杂场景下的落地。对于关注AI模型层与应用层的投资者而言，此类底层表示技术的突破，往往预示着上游训练效率的提升和下游任务性能的改善，值得持续跟踪其在更多机械臂平台和真实环境中的泛化表现。

自变量发布X-Tokenizer：具身动作分词器多模态对齐提升13.5%

延伸阅读

相关深度报道

相关每日新闻