自變量機器人正式發佈了一款名為X-Tokenizer的跨模態具身動作分詞器,為視覺-語言-動作(VLA)模型的預訓練提供了新的技術路徑。該分詞器將動作離散化從單純的“壓縮-重建”問題,重新定義為多模態推理與動作之間的語義接口學習,直擊當前VLA模型中視覺語言模型(VLM)的離散輸出與機器人所需連續指令之間的表示不匹配難題。
在VLA架構中,預訓練的VLM接收圖像和語言指令後輸出隱藏狀態,動作專家再將其轉化為連續動作指令。但兩者模態不同,傳統做法依賴動作分詞器將連續動作壓縮為離散Token,以橋接這一鴻溝。自變量機器人的核心發現是:動作分詞器拆分出的Token是否具備語義,直接決定了預訓練模型的收斂速度和最終輸出連續動作的性能。
X-Tokenizer採用編碼器-語義殘差量化(SRQ)-解碼器的輕量級架構,用SRQ替代了標準的殘差向量量化(RVQ)。其關鍵創新在於對殘差量化施加非對稱監督:第一層通過掩碼動作建模學習粗粒度動作意圖,形成離散動作語言;更深層級則保留細粒度幾何殘差。在此基礎上,模型進一步引入與預訓練VLM表徵空間的對比對齊,以及未來幀視覺-語言特徵預測兩類跨模態監督信號,使動作Token在預訓練階段即與視覺、語言語義共享同一表示空間。
這一設計帶來了顯著的抗噪聲能力。當動作注入噪聲時,X-Tokenizer通過SRQ拆分出的動作ID幾乎保持不變,在噪聲水平σ=0.008下詞錯誤率(WER)僅為0.526;相比之下,FAST分詞器的WER高達1.445,說明其難以區分主要動作與噪聲,發生了語義反轉。這得益於SRQ將粗粒度意圖與細粒度修正分配到不同層級,讓噪聲被深層吸收,而識別出的動作意圖保持穩定。
實驗結果顯示,X-Tokenizer在涵蓋17個機械臂系列、240萬條軌跡(包含20億動作幀)的數據集上預訓練後凍結,可作為一個可複用的表示模塊插入VLA主幹。相比FAST,其多模態對齊能力提升13.5%,長程任務性能提升8.25%,在RoboTwin 2.0基準評測中得分達到82.8,在簡單和困難任務上均超過業界主流模型Pi 0、Pi 0.5和X-VLA。在真機測試的7個桌面任務中,X-Tokenizer在長程推理任務上表現尤為突出,性能提升達8.25%。
從產業視角看,X-Tokenizer的提出意味著動作分詞器的設計思路正在發生轉變:不應僅基於動作本身做壓縮優化,而應將其定位為動作模態與視覺-語言模態之間的語義橋樑。這一理念若被廣泛採納,可能推動VLA預訓練範式的演進,使機器人能夠更高效地利用海量多模態數據,加速具身智能在複雜場景下的落地。對於關注AI模型層與應用層的投資者而言,此類底層表示技術的突破,往往預示著上游訓練效率的提升和下游任務性能的改善,值得持續跟蹤其在更多機械臂平臺和真實環境中的泛化表現。