InfiniteDance：面向真实场景的可泛化音乐生成舞蹈|infinitedance|动作|编舞|音乐生成舞蹈

为了推动音乐驱动舞蹈生成在真实（in-the-wild）场景中的应用，我们提出了 InfiniteDance。该工作的核心思想是实现“scale up”：一方面构建可扩展的动作采集管线，另一方面设计能够适应大规模数据的生成模型。同时，我们针对自然数据集中长尾分布带来的学习困难问题，提出了相应的解决方案。

论文标题： InfiniteDance: Scalable 3D Dance Generation Towards in-the-wild Generalization 论文链接： https://arxiv.org/abs/2603.13375 代码链接： https://github.com/MotrixLab/InfiniteDance 项目主页： https://infinitedance.github.io

一、简介

现有音乐驱动舞蹈方法在面向开放域真实场景（in-the-wild）的部署中仍面临严峻挑战。当模型面对训练分布之外的音乐风格、节奏或未见过的编舞语境时，现有方法往往产生结构松散、语义不匹配或物理不合理的舞蹈动作，这严重限制了 3D 舞蹈生成技术的实际应用价值。这一局限性主要归因于数据与模型两方面的瓶颈：

数据层面存在规模稀缺问题，且天然存在长尾分布问题。
模型层面缺少鲁棒性，过度依赖人工先验与特定条件设计。

为了解决上述问题，本章的主要贡献如下：

提出了一种新颖的 3D 动作采集管线，能够从单目视频中捕获高质量、物理合理且富有表现力的动作。其核心是一个高效的脚部修复扩散模型（FRDM），有效消除了脚地接触伪影，同时保持了原始动作的几何保真度。
构建了一个大规模、高质量的 3D 舞蹈数据集InfiniteDance，包含100.69小时的动作，涵盖 30 种风格，并配有丰富的标注，包括 RGB 视频、2D 关键点、音乐和风格标签。
设计了一个可扩展的基于 LLaMA 的编舞框架，利用检索到的参考舞蹈来提高对真实场景音乐的泛化能力，并采用混合专家网络Cadence-MoE 来减轻由数据集不平衡引起的生成偏差，从而增强音乐-舞蹈风格一致性。

二、InfiniteDance数据集构建

可规模化的高质量动作采集管线

我们提出了一种新颖的3D动作采集管线，能够从单目视频中提取高质量、物理合理的 3D 动作。

第一步是使用基于视频的动作估计方法从单目视频中提取高质量的全身动作。我们首先使用 YOLOv8对视频进行预处理，以提取单人视频序列。鉴于其强大的泛化能力和重力感知建模，我们采用 GVHMR来估计身体动作。我们使用 SMPLest-X获取SMPL-X表情和手部参数，因为它能捕捉可见特征并准确估计被遮挡的面部和手部。
第二步是通过motion tracking在物理仿真环境中重建出这些动作，这有助于通过强制物理约束来修正非物理伪影。这一步有效消除了常见的伪影，如身体穿透、漂浮和脚部滑动。然而，由于基于物理的模拟无法准确建模不同舞蹈动作中涉及的各种地面摩擦，它经常将脚部滑动伪影转换为明显的脚部抖动。
第三步是应用脚部修复扩散模型（FRDM）进一步校正脚部动作。这也是所提出的动作采集管线的核心，将在下文中详细介绍。

利用这个高质量动作采集管线，我们从互联网舞蹈视频中尽可能广泛的采集了一个大规模高质量的舞蹈数据集InfiniteDance如下图。

提出的InfiniteDance数据集和现有数据集比较三、舞蹈动作生成模型ChoreoLLaMA

为了实现适用于任何给定音乐的可扩展舞蹈生成，我们提出了 ChoreoLLaMA，一个音乐驱动的舞蹈生成模型。

3.1 基于RAG的编舞

为了提高对多样化甚至稀有音乐的泛化能力，我们提出了一种基于检索增强生成（RAG）的编舞方法。

我们训练了一个音乐-舞蹈跨模态检索网络，遵循 CLIP 架构，其中音乐编码器和舞蹈编码器利用高效注意力机制，模型使用 InfoNCE 损失在 InfiniteDance 数据集的训练集上进行训练。

在 ChoreoLLaMA的训练和推理期间，我们检索前个最相关的训练集参考舞蹈。每个通过线性投影操作处理以获得舞蹈嵌入。最终参考嵌入是所有参考舞蹈嵌入的加权和。

为了捕捉高频动作动态和低频优雅动作，并有效利用来自检索到的参考舞蹈的编舞先验，我们提出了韵律混合专家网络（Cadence Mixture of Experts，Cadence-MoE）。

对于流派，我们学习一个嵌入并重复它以获得。

如图所示，参考舞蹈由权重加权，其中，并求和得到。

然后我们应用实值快速傅里叶变换（RFFT）以获得频域特征，其中对应于奈奎斯特频率分量数目。

频率掩码将频谱分为个频带，每个频带对应大小为的有效频域特征，其余置零。

每个频带由一个专家处理，它们的输出使用由线性层后接 Softmax 激活函数组成的门控网络所预测的权重进行加权组合。

这种设计允许每个专家专注于不同的频率特征，使模型能够更好地适应各种舞蹈风格，从平滑、缓慢的动作到快速、动态的动作。

如上表所示，我们将我们的方法与现有先进方法（EDGE、LODGE 和 Bailando）进行评估比较。

4.2 泛化性实验

为了评估真实场景泛化能力，我们在两个跨数据集设置和一个 OOD 设置下测试在 InfiniteDance 上训练的模型。

对于跨数据集评估，我们使用 AIST++ 和 FineDance，它们在捕捉设置、编舞风格和音乐分布上与 InfiniteDance 有很大不同。

对于OOD评估，我们策划了一个罕见音乐集，其 BPM 超出 InfiniteDance 训练范围，具有稀有乐器和风格（例如，特雷门琴、环境音乐、身体打击乐），引入了明显的分布偏移。

本文提出了一个用于3D舞蹈生成的可扩展框架，从数据获取与模型设计两方面进行推进。我们构建了一套高效的3D动作采集流程，用于获取大规模高质量舞蹈数据，并据此构建了 InfiniteDance 数据集，为训练更具泛化能力的舞蹈生成模型提供了坚实基础。我们进一步提出 ChoreoLLaMA，通过基于RAG的编舞机制与节奏感知的MoE结构，提升生成舞蹈的质量与泛化能力。

然而，人类编舞本质上是一个迭代且交互的创作过程，依赖持续的尝试、反馈与协作进行优化。相比之下，当前的 ChoreoLLaMA 仅基于音乐和风格进行单次前向生成，无法融入中间反馈，因此尚不支持交互式细化或与人类共同创作的编舞模式。

Illustration generated by AI.

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

或添加工作人员微信（aceyiming）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。