AI自动生成主播风格的产品推广视频,为在线电商、广告和消费者互动提供了巨大的商机。然而,尽管人体姿态引导视频生成技术已有很大进展,这个任务依然充满挑战。如何将人类与物体的互动(HOI)融入姿态引导的视频生成中,成为了关键难题。为了解决这个问题,中国科学院计算技术研究所与美团提出了AnchorCrafter,一个基于扩散技术的创新系统,它可以生成包含目标人物和定制物体的2D视频,且能够高保真地呈现图像效果和可控的互动场景。(链接在文章底部)

具体来说,AnchorCrafter提出了两个关键创新:一是“HOI外观感知”,它能够从不同角度识别物体外观,同时将物体和人物的外观分开处理;二是“HOI动作注入”,它通过克服物体轨迹控制和遮挡管理的挑战,使得复杂的人物与物体互动成为可能。此外,还提出了“HOI区域重加权损失”这一训练目标,来进一步提高物体细节的学习效果。

01 技术原理

AnchorCrafter的训练流程(下图):基于视频扩散模型,AnchorCrafter通过HOI-外观感知将人物和多个视角的物体信息注入到视频中。动作通过HOI-动作注入来控制,训练目标在HOI区域进行了重新加权。

HOI-外观感知(下图):通过多视角物体特征融合提取目标物体的特征fO,并将其与人物参考特征fH结合,使用人-物双适配器来实现更好的特征分离效果。

当用参考图像动画化一个人手持物体时,现有的方法虽然能准确跟踪人体姿势,但往往无法生成手与物体的互动(比如AnimateAnyone),或者把物体误当作人体的一部分,导致没有任何动作(比如MimicMotion)。而AnchorCrafter方法能够准确生成人物与物体的互动,同时保持物体的外观不变。

02 实际效果与对比

AnchorCrafter优于现有很多方法,在保持物体外观和形状意识方面表现更好,同时确保生成高质量的视频,且人物的外观和动作保持一致,物品随意迁移到不同人物。

与其他方法的质量比较,显示了生成中的不同类型的瑕疵。在MimicMotion和AnimateAnyone的结果中,物体无法保持原有外观,也无法与手部动作同步移动;而AnyV2V则在编辑后的视频中生成了明显的瑕疵。AnyDoor和MimicMotion结合的结果则显示,物体的细节没有得到很好的保留。

https://arxiv.org/pdf/2411.17383
https://github.com/cangcz/AnchorCrafter

欢迎交流~,带你学习AI,了解AI