香港中文大学与腾讯联合推出了一个创新技术框架ControlMM,为全身动作生成带来了新的突破。 该框架支持多模态输入,包括文字、语音和音乐,并能够生成与内容相匹配的全身动作。 简单的说就是可以利用文字、音乐和语音生成特定动作。

ControlMM 是一个用于全身多模态运动生成的统一框架,可以通过文本、语音或音乐进行控制,适用于视频生成和角色动画等应用。该框架解决了使用统一模型进行多种生成任务的挑战,如不同场景下的运动分布漂移和不同粒度条件的复杂优化。

ControlMM 通过并行建模静态与动态人体拓扑图,并采用从粗到细的训练策略来应对这些挑战。此外,ControlMM-Bench 是第一个基于统一 SMPL-X 格式的公开基准,用于评估多模态全身人体运动生成。实验表明,ControlMM 在多种标准任务中表现出色。

 牛!腾讯推出利用文字或音频自动生成人物动作模型ControlMM
打开网易新闻 查看更多视频
牛!腾讯推出利用文字或音频自动生成人物动作模型ControlMM

01 工作原理

ControlMM 的架构基于 Transformer 的扩散模型。在第一阶段,ControlMM 使用文本作为语义控制引导,通过多个数据集学习跨场景的粗粒度运动知识;在第二阶段,ControlMM 冻结主干网络,同时添加一个插拔式控制分支,以学习不同的低级控制信号。ControlMM 的核心是 ControlMM-Attn,它通过捕捉动态和静态人体拓扑图的空间特性,并并行学习时间关系,优化运动序列的表示。

为了解耦不同粒度的条件生成,ControlMM 采用了双分支架构和两阶段的粗到细训练策略。主分支是一个运动扩散变换器,使用专为静态和动态运动拓扑设计的 ControlMM-Attn。控制分支与主分支共享结构,并使用主分支的预训练参数初始化,通过语义对齐的文本到运动训练进行优化,以有效掌握不同场景下的运动拓扑知识。

 牛!腾讯推出利用文字或音频自动生成人物动作模型ControlMM
打开网易新闻 查看更多视频
牛!腾讯推出利用文字或音频自动生成人物动作模型ControlMM
ControlMM 的核心是 ControlMM-Attn,它通过并行捕获静态和动态人体拓扑图,增强了运动拓扑知识在不同生成场景中的可迁移性,以应对分布漂移。 ControlMM-Attn 包含三个关键组件: 静态骨架图学习器、动态拓扑关系图学习器用于并行建模人体运动的空间属性,以及时间注意机制用于建模身体部位的时间动态。

02 应用示例

与 Text2Motion 中的基线进行比较,ControlMM在可控性、顺序性和运动合理性方面具有明显的优势。

 牛!腾讯推出利用文字或音频自动生成人物动作模型ControlMM
打开网易新闻 查看更多视频
牛!腾讯推出利用文字或音频自动生成人物动作模型ControlMM

与 Speech2Gesture 中的基线进行比较,ControlMM在可控性、顺序性和运动合理性方面具有明显的优势。

 牛!腾讯推出利用文字或音频自动生成人物动作模型ControlMM
打开网易新闻 查看更多视频
牛!腾讯推出利用文字或音频自动生成人物动作模型ControlMM
与 Music2Dance 中的基线进行比较,ControlMM模型在可控性、顺序性和运动合理性方面具有明显的优势。

 牛!腾讯推出利用文字或音频自动生成人物动作模型ControlMM
打开网易新闻 查看更多视频
牛!腾讯推出利用文字或音频自动生成人物动作模型ControlMM

欢迎交流~,带你学习AI,了解AI