銀河通用發佈AstraBrain-WBC 0.5：人形機器人運控迎來GPT式基座模型

銀河通用AstraBrain-WBC 0.5模型零樣本泛化成功率92.58%，超越SONIC。

在美國科羅拉多州丹佛舉行的CVPR 2026現場，銀河通用聯合研究團隊正式發佈了AstraBrain-WBC 0.5——全球首個面向人形機器人的通用小腦GPT基座大模型。這一成果用一組數字直接刷新了行業認知：引入史上最大規模的20億幀人類行為數據集，模型參數達到80.4M，零樣本泛化成功率高達92.58%，在MPJPE、MPJVE等多項關鍵指標上全面超越SONIC、TWIST、Any2Track等當前最優方法。

這意味著，一個沒有任何預先編程的模型，可以直接跟隨從未見過的新動作。在真機實測中，機器人能在室外泥地拿起鋤頭幹活，在家庭環境裡穩定地擼貓或鏟屎，在受到拳打腳踢的外部干擾下保持魯棒，也能風度翩翩地跳起華爾茲。武術踢腿、籃球運球投籃等高動態動作同樣是零樣本完成，無需針對具體任務進行微調。

AstraBrain-WBC 0.5的核心突破在於，它徹底拋棄了傳統運控領域常用的淺層三層MLP，轉而採用GPT風格的因果Transformer架構。研究團隊將人體全身運動視為一種“動作語言”，用處理自然語言的方式去理解和生成它。通過引入GPT式預訓練與時序因果建模，Transformer展現出遠高於MLP的容量天花板，能夠持續從海量數據中汲取營養，打破單一動作的過擬合，實現零樣本泛化追蹤全新動作。

在數據基建層面，團隊整合了AMASS、LAFAN1、MotionMillion、PHUMA、Motion-X++等多個公開數據集，加上超過一千小時的高質量內部採集數據，統一重定向到宇樹G1的29自由度關節空間。面對不同動作在頻率、幅度、風格上的巨大差異，團隊引入了諧波運動嵌入技術，基於動作的週期特徵進行聚類，將約20億幀原始數據切分成大約300個運動簇。這一步相當於給動作數據做了一次“詞性標註”和“句法分析”，讓後續訓練更有條理。

訓練策略上，團隊採用了“先分後總”的雙階段方案。第一階段，為300個運動簇分別訓練約300個PPO運動專家，讓每個專家把自己那一類動作學到極致，這一過程消耗了15000 GPU小時中的75%。第二階段，用DAgger算法將300個專家的經驗蒸餾到單一的AstraBrain-WBC 0.5模型中，相當於先培養一批專科醫生，再會診訓練出一個全科醫生。這種用工程複雜度換取模型通用性的思路，正是大模型時代常見的技術路線。

在架構對比實驗中，同樣使用2M token訓練數據，三層MLP的成功率為76.89%，8層時序卷積網絡提升到81.48%，而參數量僅5.7M的AstraBrain-WBC 0.5-S就達到了83.26%。當數據量提升到20億token、模型參數擴展到80.4M時，成功率躍升至92.58%。這組數字不僅證明了Transformer的容量優勢，更首次在人形運動控制領域驗證了Scaling Law的真實存在。

值得關注的是，團隊通過ONNX導出、TensorRT編譯、C++流式數據通道等工程優化，在單張RTX 4090顯卡上把端到端推理延遲壓到了1.5毫秒以下。作為對比，傳統方案TWIST在CPU ONNX上的延遲為2.79至3.32毫秒。這意味著模型規模雖大了幾十倍，真機部署時的響應速度反而比很多傳統小模型更快，打破了“大模型必然慢”的偏見。

從產業視角看，AstraBrain-WBC 0.5作為一個預訓練的運控基座，其他研究者可以直接零樣本跟蹤新的參考動作，大幅降低研究門檻。團隊已開源代碼和部分工具，全球研究者均可在此基礎上進行二次開發。在娛樂場景中，它讓“一鍵生成複雜擬人化表演”成為可能，舞蹈編導可以遠程給出動作指令，機器人即時跟隨。更深遠的意義在於，人形機器人底層運控如果真正走向基座化，算力賬本將不再只出現在VLA和世界模型裡，身體這一層也開始擁有自己的數據賬本、專家賬本和蒸餾賬本，這將重構整個人形機器人的商業版圖與技術棧。

銀河通用發佈AstraBrain-WBC 0.5：人形機器人運控迎來GPT式基座模型

延伸閱讀

相關每日新聞