自變量發佈X-Tokenizer：具身動作分詞器多模態對齊提升13.5%

自變量機器人推出跨模態動作分詞器X-Tokenizer，長程任務性能提升8.25%

自變量機器人正式發佈了一款名為X-Tokenizer的跨模態具身動作分詞器，為視覺-語言-動作（VLA）模型的預訓練提供了新的技術路徑。該分詞器將動作離散化從單純的“壓縮-重建”問題，重新定義為多模態推理與動作之間的語義接口學習，直擊當前VLA模型中視覺語言模型（VLM）的離散輸出與機器人所需連續指令之間的表示不匹配難題。

在VLA架構中，預訓練的VLM接收圖像和語言指令後輸出隱藏狀態，動作專家再將其轉化為連續動作指令。但兩者模態不同，傳統做法依賴動作分詞器將連續動作壓縮為離散Token，以橋接這一鴻溝。自變量機器人的核心發現是：動作分詞器拆分出的Token是否具備語義，直接決定了預訓練模型的收斂速度和最終輸出連續動作的性能。

X-Tokenizer採用編碼器-語義殘差量化（SRQ）-解碼器的輕量級架構，用SRQ替代了標準的殘差向量量化（RVQ）。其關鍵創新在於對殘差量化施加非對稱監督：第一層通過掩碼動作建模學習粗粒度動作意圖，形成離散動作語言；更深層級則保留細粒度幾何殘差。在此基礎上，模型進一步引入與預訓練VLM表徵空間的對比對齊，以及未來幀視覺-語言特徵預測兩類跨模態監督信號，使動作Token在預訓練階段即與視覺、語言語義共享同一表示空間。

這一設計帶來了顯著的抗噪聲能力。當動作注入噪聲時，X-Tokenizer通過SRQ拆分出的動作ID幾乎保持不變，在噪聲水平σ=0.008下詞錯誤率（WER）僅為0.526；相比之下，FAST分詞器的WER高達1.445，說明其難以區分主要動作與噪聲，發生了語義反轉。這得益於SRQ將粗粒度意圖與細粒度修正分配到不同層級，讓噪聲被深層吸收，而識別出的動作意圖保持穩定。

實驗結果顯示，X-Tokenizer在涵蓋17個機械臂系列、240萬條軌跡（包含20億動作幀）的數據集上預訓練後凍結，可作為一個可複用的表示模塊插入VLA主幹。相比FAST，其多模態對齊能力提升13.5%，長程任務性能提升8.25%，在RoboTwin 2.0基準評測中得分達到82.8，在簡單和困難任務上均超過業界主流模型Pi 0、Pi 0.5和X-VLA。在真機測試的7個桌面任務中，X-Tokenizer在長程推理任務上表現尤為突出，性能提升達8.25%。

從產業視角看，X-Tokenizer的提出意味著動作分詞器的設計思路正在發生轉變：不應僅基於動作本身做壓縮優化，而應將其定位為動作模態與視覺-語言模態之間的語義橋樑。這一理念若被廣泛採納，可能推動VLA預訓練範式的演進，使機器人能夠更高效地利用海量多模態數據，加速具身智能在複雜場景下的落地。對於關注AI模型層與應用層的投資者而言，此類底層表示技術的突破，往往預示著上游訓練效率的提升和下游任務性能的改善，值得持續跟蹤其在更多機械臂平臺和真實環境中的泛化表現。

自變量發佈X-Tokenizer：具身動作分詞器多模態對齊提升13.5%

延伸閱讀

相關深度報道

相關每日新聞