腾讯近日在Hugging Face上正式公开了其全模态大语言模型Ex-Omni,参数规模达到110亿。该模型由香港中文大学(深圳)的张浩宇、LIGHTSPEED的李志鹏、独立研究者郭一文及香港中文大学(深圳)的余天舒联合开发,旨在实现从语音或文本输入到多模态响应的一体化生成。

Ex-Omni的核心能力在于,它不仅能像常规对话模型那样理解文字或语音指令并生成文本回复,还能同步输出语音单元或解码后的音频,以及52维面部混合变形系数。这些系数可直接驱动3D面部模型,生成与语音内容同步的表情动画,甚至可选择性地渲染出完整的说话人脸视频。这意味着,用户只需通过语音或文字与模型对话,就能获得一个带有自然表情和口型的虚拟数字人回应。

从技术架构看,Ex-Omni集成了多个关键模块。其语音编码部分采用了Whisper模型,语音生成器与面部混合变形生成器则分别负责音频输出和面部动画参数的生成。模型还依赖外部解码器组件,包括来自GLM-4-Voice的流式解码器和HiFT解码器,以及EmoTalkNVIDIA Audio2Face数据集提供的网格模板,用于最终的面部渲染。这种模块化设计使得模型可以灵活适配不同的语音合成和动画渲染方案。

在AI产业层面,Ex-Omni的发布进一步模糊了语言模型与计算机视觉、语音合成之间的边界。当前,数字人、虚拟主播、AI陪伴等应用正成为生成式AI的重要落地场景,但多数方案仍需将语音识别、文本生成、语音合成和面部动画驱动等多个独立模型串联,流程复杂且延迟较高。Ex-Omni将上述环节整合进单一模型框架,有望显著降低开发门槛和推理成本,为实时交互式虚拟形象提供更紧凑的解决方案。

值得注意的是,该模型的研究团队横跨学术界与产业界,合作方包括LIGHTSPEED等机构,显示出腾讯在开源社区中推动多模态AI技术发展的策略。模型代码、权重及部署脚本已在Hugging Face上开放,开发者可通过Gradio界面快速搭建本地演示,输入语音或文本即可体验从对话到3D面部动画的完整流程。

尽管Ex-Omni目前仍处于早期公开阶段,其技术路径已为全模态交互提供了新的范式。随着模型在表情细腻度、实时性及多语言支持上的持续迭代,这类将语言理解、语音表达和视觉呈现深度融合的模型,或将成为下一代AI交互界面的重要基础。