牛！腾讯推出利用文字或音频自动生成人物动作模型ControlMM|人物动作模型|拓扑|模态|腾讯

香港中文大学与腾讯联合推出了一个创新技术框架ControlMM，为全身动作生成带来了新的突破。该框架支持多模态输入，包括文字、语音和音乐，并能够生成与内容相匹配的全身动作。简单的说就是可以利用文字、音乐和语音生成特定动作。

ControlMM 是一个用于全身多模态运动生成的统一框架，可以通过文本、语音或音乐进行控制，适用于视频生成和角色动画等应用。该框架解决了使用统一模型进行多种生成任务的挑战，如不同场景下的运动分布漂移和不同粒度条件的复杂优化。

ControlMM 通过并行建模静态与动态人体拓扑图，并采用从粗到细的训练策略来应对这些挑战。此外，ControlMM-Bench 是第一个基于统一 SMPL-X 格式的公开基准，用于评估多模态全身人体运动生成。实验表明，ControlMM 在多种标准任务中表现出色。

01 工作原理

ControlMM 的架构基于 Transformer 的扩散模型。在第一阶段，ControlMM 使用文本作为语义控制引导，通过多个数据集学习跨场景的粗粒度运动知识；在第二阶段，ControlMM 冻结主干网络，同时添加一个插拔式控制分支，以学习不同的低级控制信号。ControlMM 的核心是 ControlMM-Attn，它通过捕捉动态和静态人体拓扑图的空间特性，并并行学习时间关系，优化运动序列的表示。

为了解耦不同粒度的条件生成，ControlMM 采用了双分支架构和两阶段的粗到细训练策略。主分支是一个运动扩散变换器，使用专为静态和动态运动拓扑设计的 ControlMM-Attn。控制分支与主分支共享结构，并使用主分支的预训练参数初始化，通过语义对齐的文本到运动训练进行优化，以有效掌握不同场景下的运动拓扑知识。

ControlMM 的核心是 ControlMM-Attn，它通过并行捕获静态和动态人体拓扑图，增强了运动拓扑知识在不同生成场景中的可迁移性，以应对分布漂移。 ControlMM-Attn 包含三个关键组件：静态骨架图学习器、动态拓扑关系图学习器用于并行建模人体运动的空间属性，以及时间注意机制用于建模身体部位的时间动态。

02 应用示例

与 Text2Motion 中的基线进行比较，ControlMM在可控性、顺序性和运动合理性方面具有明显的优势。