X-UniMotion 代表了角色动画技术的一次突破,提供统一的运动控制系统,能够实现逼真的人类动作合成以及精确的角色运动生成,助力数字内容创作。 X-UniMotion 融合了先进的运动控制算法与直观的操作界面,能够输出专业级角色动画效果,同时保持动作的自然性与时间上的连贯性。可生成自然流畅的角色动作、保持复杂动作序列的时间一致性与物理真实性。
X-UniMotion 构建了强大的技术架构,融合统一的运动控制框架、时间一致性引擎与角色适应系统,全面提升角色动画的自然度与灵活性。其控制框架可同步协调多个运动参数,实现对身体各部位、面部表情和手势的精细操控;时间一致性引擎则通过先进的时间建模技术,确保动画序列中的动作平滑过渡,避免抖动与突变,增强整体沉浸感;而角色适应系统可自动识别不同角色的几何结构,智能调整动作比例与节奏,确保无论角色风格如何,动作始终自然真实。
01 技术原理
X-UniMotion 提供一个端到端的训练框架,联合学习人体全身运动的隐式潜在表示,并使用 DiT 网络合成逼真的视频。在其核心,使用图像编码器 从驱动图像 中提取一维潜在运动描述符 ,以捕捉全身姿态。这一全局运动编码由解耦的局部描述符补充—分别为左手和右手的 与 ,以及面部表情的 ,它们均从对应的局部图像块中提取,使用编码器 和 。
为实现与身份无关的运动表示,应用空间和颜色增强技术,有效去除运动潜变量中的身份线索。这些运动标记会根据参考人物在图像 中的身体结构,通过 ViT 解码器 进行定向,输出与身份对齐的空间运动引导。该引导与加入噪声的视频潜变量拼接在一起,并连同参考图像潜变量一起输入 DiT 模型。面部运动潜变量 还通过交叉注意力层注入 DiT 网络,以控制表情。
为了监督运动编码,在中间运动特征上应用双重解码器 和 ,预测关节点热图和手部法向图。在推理阶段,潜在运动编码会直接从驱动视频的每一帧中提取,生成具有表现力且高度还原参考人物身份的逼真动画。
02 演示与对比
外观与动作解耦(第一列为驱动视频):X-UniMotion 提取紧凑、统一、富有表现力且具备深度感知的全身人体动作潜在表示,该表示与身份信息解耦,能够捕捉复杂的身体和手部动作,以及细致的面部表情。
X-UniMotion 能够为各种参考图像生成多样化的动作:
与其他目前先进的方法对比:
https://x-unimotion.com/
或许会用在即梦等字节平台,后期如开源以及论文等信息敬请关注欢迎交流~,带你学习AI,了解AI
热门跟贴