近年来,随着其有潜力将人机交互从文本界面转变为真实的视频聊天,谈话头像生成(THG)取得了显著的进展。然而,基于文本驱动的谈话头像研究仍然较为薄弱,现有的方法大多采用级联管道,将文本到语音(TTS)系统与音频驱动的谈话头像模型结合起来。这种传统的管道不仅增加了系统的复杂性和延迟开销,而且在生成的语音和视觉表情之间存在异步的视听输出,并且存在风格差异。

为了解决这些问题,阿里通义实验室提出了OmniTalker,一个端到端的统一框架,能够在实时zero-shot场景下从文本和参考视频中同时生成同步的语音和谈话头像视频,同时保持语音风格和面部风格。OmniTalker是第一个在zero-shot设置中联合建模语音风格和面部风格的框架,具有25 FPS的实时推理速度。(链接在文章底部)

01 技术原理

OmniTalker模型框架:(a) 上下文嵌入模块采用特定模态的编码器提取文本、音频和动作嵌入。音频和动作嵌入随后根据目标序列长度进行填充,该长度由额外的时长预测模块估计。(b) 音频和视觉特征在视听融合模块中共同交互。然后,音频和视觉特征分别输入多个DiT块进行处理。

统一的多模态框架:OmniTalker将文本到音频和文本到视频的生成集成在一个模型中,通过跨模态融合实现同步输出。上下文多模态风格复制:基于参考的机制捕捉语音和面部风格,用于零-shot复制。实时效率:通过集成流匹配并保持较小的模型规模(0.8B),OmniTalker在保持高保真输出的同时,实现了实时推理。

OmniTalker是一个统一框架,用于从文本中共同生成语音和谈话视频,旨在缓解现有方法中冗余计算、误差积累和视听风格不匹配的问题。

02 演示效果

跨语种生成:(英文原视频,生成中文结果)

情感表达生成:基于不同情感的提示视频,OmniTalker能够生成与给定情感相对应的结果,具有富有表现力的面部表情和自然的头部姿势。

长视频保持:OmniTalker可以在保持一致的语气和说话风格的同时生成长期视频。

互动演示:OmniTalker方法支持实时生成,达到25帧每秒(FPS),为互动视频聊天应用提供了实际支持。

OmniTalker方法在生成质量上超越了现有方法,特别是在风格保持和音视频同步方面表现优异,同时保持了实时预测效率。(暂时为非开源方法)

https://arxiv.org/pdf/2504.02433v1

欢迎交流~,带你学习AI,了解AI