根据文本生成自然、连贯的人体动作,是计算机视觉、图形学与机器人领域的核心难题。尽管近年来发展迅猛,现有方法在应对“零样本泛化”方面依然受限,主要原因是训练数据不足、评估机制不健全。对此,上海交通大学研究团队构建了高效标注流程,发布了迄今为止规模最大的高质量人体动作数据集MotionMillion,涵盖超过2,000 小时、200 万条文本-动作配对数据,为推动领域突破打下坚实基础。

团队还同步推出了最全面的零样本动作生成评测体系MotionMillion-Eval,并基于可扩展架构训练了70 亿参数的动作生成大模型。实验显示,该模型在处理未见过的动作模式和复杂组合指令时表现出出色的泛化能力,在多个维度上刷新 SOTA。该工作不仅显著推动了零样本文本驱动动作生成的发展,也为 AI 理解和模仿人类行为打开了全新可能。(链接在文章底部)

01 技术原理

Go to Zero方法主要聚焦于全身动作,不包括手部动作和面部表情。为了表示人体动作,提取了SMPL 参数,这是一种广泛应用的人体姿态参数化模型。这一流程确保了能够高效、准确地提取出高质量的人体全身动作数据。

动作重建框架包括六个关键阶段:镜头分割(Shot Segmentation);人体检测(Human Detection);边界框置信度过滤(Bounding Box Confidence Filtering);过渡帧过滤(Transition Filtering);SMPL 动作估计(SMPL Motion Estimation);动作过滤(Motion Filtering)。

在构建了大规模标注动作数据集的基础上,旨在训练一个具备零样本泛化能力的基础性动作生成模型,特别是能够生成复杂组合动作的能力。受自然语言处理和计算机视觉领域中成功的模型扩展策略的启发,采用了一种离散自回归架构。所提出的模型包含两个关键阶段,这一设计使模型能够生成逼真且符合语义上下文的人体动作序列,同时具备良好的可扩展性。

高效动作离散化(Efficient Motion Tokenization):在该阶段,使用有限标量量化器(FSQ)来学习人体动作序列的离散表示,从而将连续动作数据高效编码为紧凑且结构化的格式;可扩展动作生成(Scalable Motion Generation):基于LLAMA 架构,模型以文本输入作为提示,参数规模从10亿(1B)扩展至70亿(7B),实现了高容量、强泛化能力的动作生成。

https://github.com/VankouF/MotionMillion-Codes
https://arxiv.org/pdf/2507.07095

欢迎交流~,带你学习AI,了解AI