开源模型 SCAIL-2 发布：实现端到端角色动画控制

SCAIL-2模型支持参考角色驱动、角色替换及多角色场景动画生成。

AI 视频生成领域迎来了一项引人注目的开源进展。一个名为 SCAIL-2 的新模型近日在 Hugging Face 平台亮相，它专注于解决一个具体但极具商业潜力的任务：可控的角色动画生成。该模型采用宽松的 MIT 许可证，意味着开发者与商业机构可以较为自由地使用和修改它。

SCAIL-2 的核心能力是“端到端驱动”。简单来说，用户只需提供一张参考角色图像和一段驱动视频，模型就能让参考角色模仿驱动视频中的动作，生成连贯的动画。更关键的是，它还能实现角色替换，即把源视频中的角色换成另一个角色，并支持多角色场景的处理。

这项工作的主要技术贡献在于其摆脱了对传统中间表示的依赖。以往的许多角色动画方案，往往需要先从视频中提取骨骼图、轮廓图或修复蒙版等中间结果，再基于这些结果生成动画。这种分步走的流程不仅繁琐，而且在处理复杂动作时容易产生歧义，驱动源也通常局限于人类动作。SCAIL-2 则直接学习从驱动视频到目标角色动画的映射，实现了端到端的控制。

为了实现这一目标，研发团队采用了一种巧妙的训练策略。他们利用多个现有模型合成了约 6 万对运动数据，并通过统一运动迁移接口进行训练，该接口设计了专门的遮罩通道和旋转位置编码。这种“反向驱动”的训练方法，让模型学到了超越其“教师模型”的能力，从而涌现出一些令人惊喜的特性。

根据项目页面披露的信息，这些涌现能力包括：跨身份的角色替换，即让一个角色模仿另一个完全不同身份角色的动作；动物驱动场景，意味着驱动源不再局限于人类，可以用动物的运动视频来驱动角色；以及对高级控制中间件的零样本支持，例如可以直接使用基于 SAM3D 的人体网格渲染结果作为控制信号。这大大扩展了模型的应用边界。

在技术规格上，SCAIL-2 的端到端驱动支持 512p 和 704p 两种分辨率，而姿态驱动和角色替换功能在 704p 分辨率下表现更佳。模型对输入尺寸有特定要求，高度和宽度均需能被 32 整除。为了方便使用，模型检查点文件已经集成了所需的变分自编码器和 T5 文本编码器。

从产业视角看，SCAIL-2 的出现是 AI 视频生成工具链日益成熟的一个缩影。它瞄准了动画制作、游戏开发、虚拟人驱动等对角色动画有大量需求的垂直场景。通过开源和端到端的简化流程，它有望让中小型工作室甚至个人创作者，以更低的成本和更高的效率获得专业级的角色动画能力。当然，作为一个研究项目，其在实际生产环境中的稳定性、生成质量的一致性与商业级闭源方案相比仍有待观察，但其展现的技术路径和开放精神，无疑为整个 AI 应用生态注入了新的活力。

开源模型 SCAIL-2 发布：实现端到端角色动画控制

延伸阅读

相关深度报道

相关每日新闻