在美国科罗拉多州丹佛举行的CVPR 2026现场,银河通用联合研究团队正式发布了AstraBrain-WBC 0.5——全球首个面向人形机器人的通用小脑GPT基座大模型。这一成果用一组数字直接刷新了行业认知:引入史上最大规模的20亿帧人类行为数据集,模型参数达到80.4M,零样本泛化成功率高达92.58%,在MPJPE、MPJVE等多项关键指标上全面超越SONICTWISTAny2Track等当前最优方法。

这意味着,一个没有任何预先编程的模型,可以直接跟随从未见过的新动作。在真机实测中,机器人能在室外泥地拿起锄头干活,在家庭环境里稳定地撸猫或铲屎,在受到拳打脚踢的外部干扰下保持鲁棒,也能风度翩翩地跳起华尔兹。武术踢腿、篮球运球投篮等高动态动作同样是零样本完成,无需针对具体任务进行微调。

AstraBrain-WBC 0.5的核心突破在于,它彻底抛弃了传统运控领域常用的浅层三层MLP,转而采用GPT风格的因果Transformer架构。研究团队将人体全身运动视为一种“动作语言”,用处理自然语言的方式去理解和生成它。通过引入GPT式预训练与时序因果建模,Transformer展现出远高于MLP的容量天花板,能够持续从海量数据中汲取营养,打破单一动作的过拟合,实现零样本泛化追踪全新动作。

在数据基建层面,团队整合了AMASSLAFAN1MotionMillionPHUMAMotion-X++等多个公开数据集,加上超过一千小时的高质量内部采集数据,统一重定向到宇树G1的29自由度关节空间。面对不同动作在频率、幅度、风格上的巨大差异,团队引入了谐波运动嵌入技术,基于动作的周期特征进行聚类,将约20亿帧原始数据切分成大约300个运动簇。这一步相当于给动作数据做了一次“词性标注”和“句法分析”,让后续训练更有条理。

训练策略上,团队采用了“先分后总”的双阶段方案。第一阶段,为300个运动簇分别训练约300个PPO运动专家,让每个专家把自己那一类动作学到极致,这一过程消耗了15000 GPU小时中的75%。第二阶段,用DAgger算法将300个专家的经验蒸馏到单一的AstraBrain-WBC 0.5模型中,相当于先培养一批专科医生,再会诊训练出一个全科医生。这种用工程复杂度换取模型通用性的思路,正是大模型时代常见的技术路线。

在架构对比实验中,同样使用2M token训练数据,三层MLP的成功率为76.89%,8层时序卷积网络提升到81.48%,而参数量仅5.7M的AstraBrain-WBC 0.5-S就达到了83.26%。当数据量提升到20亿token、模型参数扩展到80.4M时,成功率跃升至92.58%。这组数字不仅证明了Transformer的容量优势,更首次在人形运动控制领域验证了Scaling Law的真实存在。

值得关注的是,团队通过ONNX导出、TensorRT编译、C++流式数据通道等工程优化,在单张RTX 4090显卡上把端到端推理延迟压到了1.5毫秒以下。作为对比,传统方案TWIST在CPU ONNX上的延迟为2.79至3.32毫秒。这意味着模型规模虽大了几十倍,真机部署时的响应速度反而比很多传统小模型更快,打破了“大模型必然慢”的偏见。

从产业视角看,AstraBrain-WBC 0.5作为一个预训练的运控基座,其他研究者可以直接零样本跟踪新的参考动作,大幅降低研究门槛。团队已开源代码和部分工具,全球研究者均可在此基础上进行二次开发。在娱乐场景中,它让“一键生成复杂拟人化表演”成为可能,舞蹈编导可以远程给出动作指令,机器人即时跟随。更深远的意义在于,人形机器人底层运控如果真正走向基座化,算力账本将不再只出现在VLA和世界模型里,身体这一层也开始拥有自己的数据账本、专家账本和蒸馏账本,这将重构整个人形机器人的商业版图与技术栈。