银河通用发布AstraBrain-WBC 0.5：人形机器人运控迎来GPT式基座模型

银河通用AstraBrain-WBC 0.5模型零样本泛化成功率92.58%，超越SONIC。

在美国科罗拉多州丹佛举行的CVPR 2026现场，银河通用联合研究团队正式发布了AstraBrain-WBC 0.5——全球首个面向人形机器人的通用小脑GPT基座大模型。这一成果用一组数字直接刷新了行业认知：引入史上最大规模的20亿帧人类行为数据集，模型参数达到80.4M，零样本泛化成功率高达92.58%，在MPJPE、MPJVE等多项关键指标上全面超越SONIC、TWIST、Any2Track等当前最优方法。

这意味着，一个没有任何预先编程的模型，可以直接跟随从未见过的新动作。在真机实测中，机器人能在室外泥地拿起锄头干活，在家庭环境里稳定地撸猫或铲屎，在受到拳打脚踢的外部干扰下保持鲁棒，也能风度翩翩地跳起华尔兹。武术踢腿、篮球运球投篮等高动态动作同样是零样本完成，无需针对具体任务进行微调。

AstraBrain-WBC 0.5的核心突破在于，它彻底抛弃了传统运控领域常用的浅层三层MLP，转而采用GPT风格的因果Transformer架构。研究团队将人体全身运动视为一种“动作语言”，用处理自然语言的方式去理解和生成它。通过引入GPT式预训练与时序因果建模，Transformer展现出远高于MLP的容量天花板，能够持续从海量数据中汲取营养，打破单一动作的过拟合，实现零样本泛化追踪全新动作。

在数据基建层面，团队整合了AMASS、LAFAN1、MotionMillion、PHUMA、Motion-X++等多个公开数据集，加上超过一千小时的高质量内部采集数据，统一重定向到宇树G1的29自由度关节空间。面对不同动作在频率、幅度、风格上的巨大差异，团队引入了谐波运动嵌入技术，基于动作的周期特征进行聚类，将约20亿帧原始数据切分成大约300个运动簇。这一步相当于给动作数据做了一次“词性标注”和“句法分析”，让后续训练更有条理。

训练策略上，团队采用了“先分后总”的双阶段方案。第一阶段，为300个运动簇分别训练约300个PPO运动专家，让每个专家把自己那一类动作学到极致，这一过程消耗了15000 GPU小时中的75%。第二阶段，用DAgger算法将300个专家的经验蒸馏到单一的AstraBrain-WBC 0.5模型中，相当于先培养一批专科医生，再会诊训练出一个全科医生。这种用工程复杂度换取模型通用性的思路，正是大模型时代常见的技术路线。

在架构对比实验中，同样使用2M token训练数据，三层MLP的成功率为76.89%，8层时序卷积网络提升到81.48%，而参数量仅5.7M的AstraBrain-WBC 0.5-S就达到了83.26%。当数据量提升到20亿token、模型参数扩展到80.4M时，成功率跃升至92.58%。这组数字不仅证明了Transformer的容量优势，更首次在人形运动控制领域验证了Scaling Law的真实存在。

值得关注的是，团队通过ONNX导出、TensorRT编译、C++流式数据通道等工程优化，在单张RTX 4090显卡上把端到端推理延迟压到了1.5毫秒以下。作为对比，传统方案TWIST在CPU ONNX上的延迟为2.79至3.32毫秒。这意味着模型规模虽大了几十倍，真机部署时的响应速度反而比很多传统小模型更快，打破了“大模型必然慢”的偏见。

从产业视角看，AstraBrain-WBC 0.5作为一个预训练的运控基座，其他研究者可以直接零样本跟踪新的参考动作，大幅降低研究门槛。团队已开源代码和部分工具，全球研究者均可在此基础上进行二次开发。在娱乐场景中，它让“一键生成复杂拟人化表演”成为可能，舞蹈编导可以远程给出动作指令，机器人即时跟随。更深远的意义在于，人形机器人底层运控如果真正走向基座化，算力账本将不再只出现在VLA和世界模型里，身体这一层也开始拥有自己的数据账本、专家账本和蒸馏账本，这将重构整个人形机器人的商业版图与技术栈。

银河通用发布AstraBrain-WBC 0.5：人形机器人运控迎来GPT式基座模型

延伸阅读

相关每日新闻