開源模型 SCAIL-2 發佈：實現端到端角色動畫控制

SCAIL-2模型支持參考角色驅動、角色替換及多角色場景動畫生成。

AI 視頻生成領域迎來了一項引人注目的開源進展。一個名為 SCAIL-2 的新模型近日在 Hugging Face 平臺亮相，它專注於解決一個具體但極具商業潛力的任務：可控的角色動畫生成。該模型採用寬鬆的 MIT 許可證，意味著開發者與商業機構可以較為自由地使用和修改它。

SCAIL-2 的核心能力是“端到端驅動”。簡單來說，用戶只需提供一張參考角色圖像和一段驅動視頻，模型就能讓參考角色模仿驅動視頻中的動作，生成連貫的動畫。更關鍵的是，它還能實現角色替換，即把源視頻中的角色換成另一個角色，並支持多角色場景的處理。

這項工作的主要技術貢獻在於其擺脫了對傳統中間表示的依賴。以往的許多角色動畫方案，往往需要先從視頻中提取骨骼圖、輪廓圖或修復蒙版等中間結果，再基於這些結果生成動畫。這種分步走的流程不僅繁瑣，而且在處理複雜動作時容易產生歧義，驅動源也通常侷限於人類動作。SCAIL-2 則直接學習從驅動視頻到目標角色動畫的映射，實現了端到端的控制。

為了實現這一目標，研發團隊採用了一種巧妙的訓練策略。他們利用多個現有模型合成了約 6 萬對運動數據，並通過統一運動遷移接口進行訓練，該接口設計了專門的遮罩通道和旋轉位置編碼。這種“反向驅動”的訓練方法，讓模型學到了超越其“教師模型”的能力，從而湧現出一些令人驚喜的特性。

根據項目頁面披露的信息，這些湧現能力包括：跨身份的角色替換，即讓一個角色模仿另一個完全不同身份角色的動作；動物驅動場景，意味著驅動源不再侷限於人類，可以用動物的運動視頻來驅動角色；以及對高級控制中間件的零樣本支持，例如可以直接使用基於 SAM3D 的人體網格渲染結果作為控制信號。這大大擴展了模型的應用邊界。

在技術規格上，SCAIL-2 的端到端驅動支持 512p 和 704p 兩種分辨率，而姿態驅動和角色替換功能在 704p 分辨率下表現更佳。模型對輸入尺寸有特定要求，高度和寬度均需能被 32 整除。為了方便使用，模型檢查點文件已經集成了所需的變分自編碼器和 T5 文本編碼器。

從產業視角看，SCAIL-2 的出現是 AI 視頻生成工具鏈日益成熟的一個縮影。它瞄準了動畫製作、遊戲開發、虛擬人驅動等對角色動畫有大量需求的垂直場景。通過開源和端到端的簡化流程，它有望讓中小型工作室甚至個人創作者，以更低的成本和更高的效率獲得專業級的角色動畫能力。當然，作為一個研究項目，其在實際生產環境中的穩定性、生成質量的一致性與商業級閉源方案相比仍有待觀察，但其展現的技術路徑和開放精神，無疑為整個 AI 應用生態注入了新的活力。

開源模型 SCAIL-2 發佈：實現端到端角色動畫控制

延伸閱讀

相關深度報道

相關每日新聞