AI 視頻生成領域迎來了一項引人注目的開源進展。一個名為 SCAIL-2 的新模型近日在 Hugging Face 平臺亮相,它專注於解決一個具體但極具商業潛力的任務:可控的角色動畫生成。該模型採用寬鬆的 MIT 許可證,意味著開發者與商業機構可以較為自由地使用和修改它。
SCAIL-2 的核心能力是“端到端驅動”。簡單來說,用戶只需提供一張參考角色圖像和一段驅動視頻,模型就能讓參考角色模仿驅動視頻中的動作,生成連貫的動畫。更關鍵的是,它還能實現角色替換,即把源視頻中的角色換成另一個角色,並支持多角色場景的處理。
這項工作的主要技術貢獻在於其擺脫了對傳統中間表示的依賴。以往的許多角色動畫方案,往往需要先從視頻中提取骨骼圖、輪廓圖或修復蒙版等中間結果,再基於這些結果生成動畫。這種分步走的流程不僅繁瑣,而且在處理複雜動作時容易產生歧義,驅動源也通常侷限於人類動作。SCAIL-2 則直接學習從驅動視頻到目標角色動畫的映射,實現了端到端的控制。
為了實現這一目標,研發團隊採用了一種巧妙的訓練策略。他們利用多個現有模型合成了約 6 萬對運動數據,並通過統一運動遷移接口進行訓練,該接口設計了專門的遮罩通道和旋轉位置編碼。這種“反向驅動”的訓練方法,讓模型學到了超越其“教師模型”的能力,從而湧現出一些令人驚喜的特性。
根據項目頁面披露的信息,這些湧現能力包括:跨身份的角色替換,即讓一個角色模仿另一個完全不同身份角色的動作;動物驅動場景,意味著驅動源不再侷限於人類,可以用動物的運動視頻來驅動角色;以及對高級控制中間件的零樣本支持,例如可以直接使用基於 SAM3D 的人體網格渲染結果作為控制信號。這大大擴展了模型的應用邊界。
在技術規格上,SCAIL-2 的端到端驅動支持 512p 和 704p 兩種分辨率,而姿態驅動和角色替換功能在 704p 分辨率下表現更佳。模型對輸入尺寸有特定要求,高度和寬度均需能被 32 整除。為了方便使用,模型檢查點文件已經集成了所需的變分自編碼器和 T5 文本編碼器。
從產業視角看,SCAIL-2 的出現是 AI 視頻生成工具鏈日益成熟的一個縮影。它瞄準了動畫製作、遊戲開發、虛擬人驅動等對角色動畫有大量需求的垂直場景。通過開源和端到端的簡化流程,它有望讓中小型工作室甚至個人創作者,以更低的成本和更高的效率獲得專業級的角色動畫能力。當然,作為一個研究項目,其在實際生產環境中的穩定性、生成質量的一致性與商業級閉源方案相比仍有待觀察,但其展現的技術路徑和開放精神,無疑為整個 AI 應用生態注入了新的活力。