香港中文大学与腾讯联合推出了一个创新技术框架ControlMM,为全身动作生成带来了新的突破。 该框架支持多模态输入,包括文字、语音和音乐,并能够生成与内容相匹配的全身动作。 简单的说就是可以利用文字、音乐和语音生成特定动作。
ControlMM 是一个用于全身多模态运动生成的统一框架,可以通过文本、语音或音乐进行控制,适用于视频生成和角色动画等应用。该框架解决了使用统一模型进行多种生成任务的挑战,如不同场景下的运动分布漂移和不同粒度条件的复杂优化。
ControlMM 通过并行建模静态与动态人体拓扑图,并采用从粗到细的训练策略来应对这些挑战。此外,ControlMM-Bench 是第一个基于统一 SMPL-X 格式的公开基准,用于评估多模态全身人体运动生成。实验表明,ControlMM 在多种标准任务中表现出色。
01 工作原理
ControlMM 的架构基于 Transformer 的扩散模型。在第一阶段,ControlMM 使用文本作为语义控制引导,通过多个数据集学习跨场景的粗粒度运动知识;在第二阶段,ControlMM 冻结主干网络,同时添加一个插拔式控制分支,以学习不同的低级控制信号。ControlMM 的核心是 ControlMM-Attn,它通过捕捉动态和静态人体拓扑图的空间特性,并并行学习时间关系,优化运动序列的表示。
为了解耦不同粒度的条件生成,ControlMM 采用了双分支架构和两阶段的粗到细训练策略。主分支是一个运动扩散变换器,使用专为静态和动态运动拓扑设计的 ControlMM-Attn。控制分支与主分支共享结构,并使用主分支的预训练参数初始化,通过语义对齐的文本到运动训练进行优化,以有效掌握不同场景下的运动拓扑知识。
02 应用示例
与 Text2Motion 中的基线进行比较,ControlMM在可控性、顺序性和运动合理性方面具有明显的优势。
与 Speech2Gesture 中的基线进行比较,ControlMM在可控性、顺序性和运动合理性方面具有明显的优势。
欢迎交流~,带你学习AI,了解AI
热门跟贴