騰訊近日在Hugging Face上正式公開了其全模態大語言模型Ex-Omni,參數規模達到110億。該模型由香港中文大學(深圳)的張浩宇、LIGHTSPEED的李志鵬、獨立研究者郭一文及香港中文大學(深圳)的余天舒聯合開發,旨在實現從語音或文本輸入到多模態響應的一體化生成。

Ex-Omni的核心能力在於,它不僅能像常規對話模型那樣理解文字或語音指令並生成文本回復,還能同步輸出語音單元或解碼後的音頻,以及52維面部混合變形係數。這些係數可直接驅動3D面部模型,生成與語音內容同步的表情動畫,甚至可選擇性地渲染出完整的說話人臉視頻。這意味著,用戶只需通過語音或文字與模型對話,就能獲得一個帶有自然表情和口型的虛擬數字人回應。

從技術架構看,Ex-Omni集成了多個關鍵模塊。其語音編碼部分採用了Whisper模型,語音生成器與面部混合變形生成器則分別負責音頻輸出和麵部動畫參數的生成。模型還依賴外部解碼器組件,包括來自GLM-4-Voice的流式解碼器和HiFT解碼器,以及EmoTalkNVIDIA Audio2Face數據集提供的網格模板,用於最終的面部渲染。這種模塊化設計使得模型可以靈活適配不同的語音合成和動畫渲染方案。

在AI產業層面,Ex-Omni的發佈進一步模糊了語言模型與計算機視覺、語音合成之間的邊界。當前,數字人、虛擬主播、AI陪伴等應用正成為生成式AI的重要落地場景,但多數方案仍需將語音識別、文本生成、語音合成和麵部動畫驅動等多個獨立模型串聯,流程複雜且延遲較高。Ex-Omni將上述環節整合進單一模型框架,有望顯著降低開發門檻和推理成本,為實時交互式虛擬形象提供更緊湊的解決方案。

值得注意的是,該模型的研究團隊橫跨學術界與產業界,合作方包括LIGHTSPEED等機構,顯示出騰訊在開源社區中推動多模態AI技術發展的策略。模型代碼、權重及部署腳本已在Hugging Face上開放,開發者可通過Gradio界面快速搭建本地演示,輸入語音或文本即可體驗從對話到3D面部動畫的完整流程。

儘管Ex-Omni目前仍處於早期公開階段,其技術路徑已為全模態交互提供了新的範式。隨著模型在表情細膩度、實時性及多語言支持上的持續迭代,這類將語言理解、語音表達和視覺呈現深度融合的模型,或將成為下一代AI交互界面的重要基礎。