AI 视频生成领域迎来了一项引人注目的开源进展。一个名为 SCAIL-2 的新模型近日在 Hugging Face 平台亮相,它专注于解决一个具体但极具商业潜力的任务:可控的角色动画生成。该模型采用宽松的 MIT 许可证,意味着开发者与商业机构可以较为自由地使用和修改它。

SCAIL-2 的核心能力是“端到端驱动”。简单来说,用户只需提供一张参考角色图像和一段驱动视频,模型就能让参考角色模仿驱动视频中的动作,生成连贯的动画。更关键的是,它还能实现角色替换,即把源视频中的角色换成另一个角色,并支持多角色场景的处理。

这项工作的主要技术贡献在于其摆脱了对传统中间表示的依赖。以往的许多角色动画方案,往往需要先从视频中提取骨骼图、轮廓图或修复蒙版等中间结果,再基于这些结果生成动画。这种分步走的流程不仅繁琐,而且在处理复杂动作时容易产生歧义,驱动源也通常局限于人类动作。SCAIL-2 则直接学习从驱动视频到目标角色动画的映射,实现了端到端的控制。

为了实现这一目标,研发团队采用了一种巧妙的训练策略。他们利用多个现有模型合成了约 6 万对运动数据,并通过统一运动迁移接口进行训练,该接口设计了专门的遮罩通道和旋转位置编码。这种“反向驱动”的训练方法,让模型学到了超越其“教师模型”的能力,从而涌现出一些令人惊喜的特性。

根据项目页面披露的信息,这些涌现能力包括:跨身份的角色替换,即让一个角色模仿另一个完全不同身份角色的动作;动物驱动场景,意味着驱动源不再局限于人类,可以用动物的运动视频来驱动角色;以及对高级控制中间件的零样本支持,例如可以直接使用基于 SAM3D 的人体网格渲染结果作为控制信号。这大大扩展了模型的应用边界。

在技术规格上,SCAIL-2 的端到端驱动支持 512p 和 704p 两种分辨率,而姿态驱动和角色替换功能在 704p 分辨率下表现更佳。模型对输入尺寸有特定要求,高度和宽度均需能被 32 整除。为了方便使用,模型检查点文件已经集成了所需的变分自编码器和 T5 文本编码器。

从产业视角看,SCAIL-2 的出现是 AI 视频生成工具链日益成熟的一个缩影。它瞄准了动画制作、游戏开发、虚拟人驱动等对角色动画有大量需求的垂直场景。通过开源和端到端的简化流程,它有望让中小型工作室甚至个人创作者,以更低的成本和更高的效率获得专业级的角色动画能力。当然,作为一个研究项目,其在实际生产环境中的稳定性、生成质量的一致性与商业级闭源方案相比仍有待观察,但其展现的技术路径和开放精神,无疑为整个 AI 应用生态注入了新的活力。