精准复刻！字节推出X-UniMotion实现高精度动作模仿合成|unimotion|动作|动画|描述符|编码器|解耦

X-UniMotion 代表了角色动画技术的一次突破，提供统一的运动控制系统，能够实现逼真的人类动作合成以及精确的角色运动生成，助力数字内容创作。 X-UniMotion 融合了先进的运动控制算法与直观的操作界面，能够输出专业级角色动画效果，同时保持动作的自然性与时间上的连贯性。可生成自然流畅的角色动作、保持复杂动作序列的时间一致性与物理真实性。

X-UniMotion 构建了强大的技术架构，融合统一的运动控制框架、时间一致性引擎与角色适应系统，全面提升角色动画的自然度与灵活性。其控制框架可同步协调多个运动参数，实现对身体各部位、面部表情和手势的精细操控；时间一致性引擎则通过先进的时间建模技术，确保动画序列中的动作平滑过渡，避免抖动与突变，增强整体沉浸感；而角色适应系统可自动识别不同角色的几何结构，智能调整动作比例与节奏，确保无论角色风格如何，动作始终自然真实。

01 技术原理

X-UniMotion 提供一个端到端的训练框架，联合学习人体全身运动的隐式潜在表示，并使用 DiT 网络合成逼真的视频。在其核心，使用图像编码器从驱动图像中提取一维潜在运动描述符，以捕捉全身姿态。这一全局运动编码由解耦的局部描述符补充—分别为左手和右手的与，以及面部表情的，它们均从对应的局部图像块中提取，使用编码器和。

为实现与身份无关的运动表示，应用空间和颜色增强技术，有效去除运动潜变量中的身份线索。这些运动标记会根据参考人物在图像中的身体结构，通过 ViT 解码器进行定向，输出与身份对齐的空间运动引导。该引导与加入噪声的视频潜变量拼接在一起，并连同参考图像潜变量一起输入 DiT 模型。面部运动潜变量还通过交叉注意力层注入 DiT 网络，以控制表情。

为了监督运动编码，在中间运动特征上应用双重解码器和，预测关节点热图和手部法向图。在推理阶段，潜在运动编码会直接从驱动视频的每一帧中提取，生成具有表现力且高度还原参考人物身份的逼真动画。

02 演示与对比

外观与动作解耦（第一列为驱动视频）：X-UniMotion 提取紧凑、统一、富有表现力且具备深度感知的全身人体动作潜在表示，该表示与身份信息解耦，能够捕捉复杂的身体和手部动作，以及细致的面部表情。

X-UniMotion 能够为各种参考图像生成多样化的动作：

与其他目前先进的方法对比：

https://x-unimotion.com/
或许会用在即梦等字节平台，后期如开源以及论文等信息敬请关注

欢迎交流～，带你学习AI，了解AI

精准复刻！字节推出X-UniMotion实现高精度动作模仿合成

热搜

热门跟贴

热搜

热门跟贴

相关推荐

让扩散模型「可解释」不再降质，开启图片编辑新思路

多模态预训练，才是大模型的下一条路？Yann LeCun、谢赛宁参与

DECS从源头消除冗余思考，实现推理token减半且性能不降反升

面壁智能开源全模态模型MiniCPM-o4.5，边看边听还能主动抢答

小模型读书大模型思考：上海AI Lab提出新知识推理解耦方法DRIFT

Anthropic的AI读心术，让人类读懂大模型在想啥

挑战扩散自回归！字节提出视觉生成第三种路线，让模型边画边改

LLM+运筹优化：工业级多机器人协同控制软件生成新范式

“这是一次我们从未见过的大变革”，李彦宏称“代码正在变得不值钱”

英伟达押注AlphaGo研发主管新公司 摸索大模型行业未来前沿

00后小哥复刻Claude最强神话模型OpenMythos

这套动作少一个车都开不走！

原来这个动作是这样做到的，脚是固定的！网友：还是很有感觉 那种意境

不闻人间烟火，但食人间美味 又到了吃小龙虾的季节了，小龙虾

小时候只看过动画版的，没想到真人版的更好看！

哆啦A梦：大雄单靠眼神就能移动物体，念力眼药水滴多了倒沫子了

哆啦A梦，学校来了一位比小夫还有钱的同学，把小夫气坏了

哆啦A梦：雄妈沉迷于胖虎无法自拔，这是大雄送妈妈的母亲节礼物

最硬核的动作爽片

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

英伟达押注AlphaGo研发主管新公司摸索大模型行业未来前沿

原来这个动作是这样做到的，脚是固定的！网友：还是很有感觉那种意境

不闻人间烟火，但食人间美味又到了吃小龙虾的季节了，小龙虾