在美國科羅拉多州丹佛舉行的CVPR 2026現場,銀河通用聯合研究團隊正式發佈了AstraBrain-WBC 0.5——全球首個面向人形機器人的通用小腦GPT基座大模型。這一成果用一組數字直接刷新了行業認知:引入史上最大規模的20億幀人類行為數據集,模型參數達到80.4M,零樣本泛化成功率高達92.58%,在MPJPE、MPJVE等多項關鍵指標上全面超越SONICTWISTAny2Track等當前最優方法。

這意味著,一個沒有任何預先編程的模型,可以直接跟隨從未見過的新動作。在真機實測中,機器人能在室外泥地拿起鋤頭幹活,在家庭環境裡穩定地擼貓或鏟屎,在受到拳打腳踢的外部干擾下保持魯棒,也能風度翩翩地跳起華爾茲。武術踢腿、籃球運球投籃等高動態動作同樣是零樣本完成,無需針對具體任務進行微調。

AstraBrain-WBC 0.5的核心突破在於,它徹底拋棄了傳統運控領域常用的淺層三層MLP,轉而採用GPT風格的因果Transformer架構。研究團隊將人體全身運動視為一種“動作語言”,用處理自然語言的方式去理解和生成它。通過引入GPT式預訓練與時序因果建模,Transformer展現出遠高於MLP的容量天花板,能夠持續從海量數據中汲取營養,打破單一動作的過擬合,實現零樣本泛化追蹤全新動作。

在數據基建層面,團隊整合了AMASSLAFAN1MotionMillionPHUMAMotion-X++等多個公開數據集,加上超過一千小時的高質量內部採集數據,統一重定向到宇樹G1的29自由度關節空間。面對不同動作在頻率、幅度、風格上的巨大差異,團隊引入了諧波運動嵌入技術,基於動作的週期特徵進行聚類,將約20億幀原始數據切分成大約300個運動簇。這一步相當於給動作數據做了一次“詞性標註”和“句法分析”,讓後續訓練更有條理。

訓練策略上,團隊採用了“先分後總”的雙階段方案。第一階段,為300個運動簇分別訓練約300個PPO運動專家,讓每個專家把自己那一類動作學到極致,這一過程消耗了15000 GPU小時中的75%。第二階段,用DAgger算法將300個專家的經驗蒸餾到單一的AstraBrain-WBC 0.5模型中,相當於先培養一批專科醫生,再會診訓練出一個全科醫生。這種用工程複雜度換取模型通用性的思路,正是大模型時代常見的技術路線。

在架構對比實驗中,同樣使用2M token訓練數據,三層MLP的成功率為76.89%,8層時序卷積網絡提升到81.48%,而參數量僅5.7M的AstraBrain-WBC 0.5-S就達到了83.26%。當數據量提升到20億token、模型參數擴展到80.4M時,成功率躍升至92.58%。這組數字不僅證明了Transformer的容量優勢,更首次在人形運動控制領域驗證了Scaling Law的真實存在。

值得關注的是,團隊通過ONNX導出、TensorRT編譯、C++流式數據通道等工程優化,在單張RTX 4090顯卡上把端到端推理延遲壓到了1.5毫秒以下。作為對比,傳統方案TWIST在CPU ONNX上的延遲為2.79至3.32毫秒。這意味著模型規模雖大了幾十倍,真機部署時的響應速度反而比很多傳統小模型更快,打破了“大模型必然慢”的偏見。

從產業視角看,AstraBrain-WBC 0.5作為一個預訓練的運控基座,其他研究者可以直接零樣本跟蹤新的參考動作,大幅降低研究門檻。團隊已開源代碼和部分工具,全球研究者均可在此基礎上進行二次開發。在娛樂場景中,它讓“一鍵生成複雜擬人化表演”成為可能,舞蹈編導可以遠程給出動作指令,機器人即時跟隨。更深遠的意義在於,人形機器人底層運控如果真正走向基座化,算力賬本將不再只出現在VLA和世界模型裡,身體這一層也開始擁有自己的數據賬本、專家賬本和蒸餾賬本,這將重構整個人形機器人的商業版圖與技術棧。