在动态摄影(Cinemagraph)生成领域,传统方法主要依赖于光流预测与重复纹理假设,通常只能处理水流、烟雾等具有简单周期性运动的场景,难以推广至人物、动物或刚性物体所涉及的复杂非重复性运动。与此同时,尽管大规模视频扩散模型能够生成视觉效果出色的视频,但它们往往无法保持静态背景的一致性,并且在细粒度运动轨迹控制方面能力有限。
本文介绍一项Adobe Research最新发布的研究成果DreamLoop。DreamLoop是一个基于视频扩散模型的可控动态摄影生成框架,其核心目标是实现在无需专用训练数据的前提下,从单张静态照片生成高质量、用户可控且无缝循环的动态影像。该框架以前馈推理的方式,将预训练的图像到视频扩散模型与用户提供的边界框序列和稀疏点轨迹相结合,并通过强化学习引导的微调策略,在真实视频数据集上进行优化,最终输出与用户意图高度匹配的电影循环序列。实验表明,DreamLoop在通用场景下的电影循环生成任务中,其性能显著优于传统光流方法与现有视频扩散模型。
论文题目: DreamLoop: Controllable Cinemagraph Generation from a Single Photograph 文章链接: https://arxiv.org/abs/2601.02646 项目主页: https://anime26398.github.io/dreamloop.github.io
一、引言
动态摄影是一种独特而富有表现力的视觉媒介形式,它巧妙地融合了静态摄影的构图和局部、可控的动态元素,通过无缝循环的动画效果,营造出介于静态图像与视频之间的艺术体验。它的效果是在一张静止的照片中引入局部反复运动的部分使整个画面活跃起来,如下图所示。
然而,传统制作流程往往需要精心拍摄的视频素材、严格的相机稳定措施以及耗时的后期处理。因此,若能仅凭单张照片生成动态摄影,将大幅降低这一艺术形式的创作门槛。目前该任务面临以下核心挑战:
(1)现有的动态摄影生成方法大多依赖光流预测(如Animating Landscape[1]、Controllable Animation[2]),主要适用于具有重复纹理和规律运动的场景,难以刻画人类、动物等刚性或半刚性目标所呈现的复杂、非周期性运动模式。
(2)大规模视频扩散模型(如CogVideoX[3]、Wan2.2-5B[4])虽然在通用视频生成方面展现出强大的表达能力,但缺乏对运动区域的细粒度空间定位与精确轨迹控制,难以在生成过程中同时保证背景区域的严格静态性以及局部运动的可控性。
(3)目前该领域缺乏专门的大规模高质量数据集,这使得直接训练适应此任务的模型十分困难。
二、方法介绍
下图展示了DreamLoop方法的整体架构。左侧展示了模型在边界框与稀疏点轨迹控制条件下的训练流程,右侧部分展示了DreamLoop的推理过程。
本文以预训练的图像到视频扩散模型为基础,首先使用 3D-VAE 对图像进行时空编码,随后通过 DiT 处理噪声 tokens,最后解码生成最终视频。训练目标函数为:
其中, 表示时间步 的 latent 状态, 是训练路径上的目标速度, 是模型学习的速度场。该目标函数用于优化模型对时空动态的建模能力。
2.2 时序边界控制和运动控制
为了实现文本指令控制效果,本文将时间信息和运动条件注入到损失函数中。具体来说,时序边界控制是指训练模型根据首帧和末帧生成中间帧,从而在推理时通过将输入照片作为首末帧来强制生成无缝循环。运动控制是指训练模型根据边界框序列和稀疏点轨迹来生成视频,从而实现对物体运动的精确控制。
如上图所示,上半部分展示了时间控制在生成运动方面的作用。以滚珠的简谐运动为例,若沿轨迹均匀分配时间(左上图),滚珠将呈现匀速运动,缺乏真实感。通过时间控制,模型可在运动极值点分配更长时间、在中间位置分配更短时间,从而准确模拟物理特性。下半部分对比了完整路径与部分路径两种设置。用户既可以提供完整运动轨迹(左下图),也可以仅给出初始轨迹(右下图),其余运动均由模型自动生成,在降低交互成本的同时也保持了运动的连续性与合理性。
2.2.1 时序边界控制
动态摄影与传统视频的根本区别在于运动必须实现无缝、连续的循环播放。这要求生成序列的第一帧与最后一帧在视觉上完全一致,从而形成无限循环的视觉效果。为了生成无缝循环,本文提出了时序边界控制策略。
在训练阶段,针对任意训练视频片段 ,先利用预训练3D-VAE对首帧 和末帧 进行编码,得到对应的特征tokens,再将这些tokens与扩散过程中的噪声tokens拼接后,并送入到DiT Transformer中,使模型充分学习首末帧之间的时序规律。在推理阶段,通过设置首帧 和末帧 均等同于输入静态照片,强制模型生成首末帧完全一致的视频序列,从而满足动态摄影所需的无缝循环特性。
2.2.2 运动控制
为实现精准可控性,本文设计了两种互补的运动控制条件,均通过 RGB 掩码编码后注入模型。
(1)边界框序列:捕捉目标物体的全局运动。将每帧目标的边界框坐标编码为彩色 RGB mask作为条件 tokens。
(2)稀疏点轨迹:捕捉目标物体的局部运动及背景静态约束。在 10×10 网格上采样轨迹点,静态区域(如背景)的轨迹点保持固定,动态区域的轨迹点按照用户定义的路径变化,编码为特征 。
这两种条件 tokens 与首末帧 tokens、文本提示 tokens 一起送入到模型中,形成完整的条件化生成目标:
2.3 细粒度控制
DreamLoop模型为用户提供了不同层次的运动路径控制方法。在完整路径控制模式下,用户可以精确指定目标对象在整个视频序列中的详细运动轨迹,实现对运动模式的完全控制。然而,在实际创作过程中,用户往往只需要输入较为粗略的运动信息,例如对象的初始运动方向和基本速度。为适应这一需求,DreamLoop同时也支持了局部路径控制模式。
在该模式下,用户仅需为视频序列的前若干帧 定义运动路径,模型能够基于这些有限的输入,智能推断并自动补全后续帧的运动轨迹。这种灵活性是通过在训练阶段引入随机丢弃策略实现的。模型会随机丢弃边界框或点轨迹序列中后部分的若干帧,从而学会从部分输入中推理完整运动序列的能力。
三、实验效果
本文在包含约800万个视频的大规模数据集上进行了训练,其中边界框通过DEVA方法提取,稀疏点轨迹则利用RAFT光流算法计算并保持时间循环一致性。本文在不可控生成(仅输入图像)和可控生成(输入图像与方向引导)两种设置下进行测试。评估采用FVD、DT-FVD、FID及KID四项通用视频生成指标,其中文本描述由GPT-5自动生成。本文重点与不可控场景和可控场景方法进行了对比,不可控场景方法包括基于光流的Animating Landscape、Text2Cinemagraph以及通用图像到视频模型CogVideoX-5B、Wan2.2-5B。可控场景方法包括Animating Landscape的变体、SLR-SFS及Controllable Animation等方法进行比较。
3.1 定量实验
下表展示了本文方法在不可控场景中相较现有方法的性能优势,DreamLoop方法在FVD、DT-FVD、KID和FID四项指标上均超越了现有基线。
此外,DreamLoop在运动真实性和视觉质量上均显著优于传统光流方法。即使仅使用时序边界控制的简化版本,DreamLoop也生成了不错的效果,这验证了时序边界控制策略的有效性。
上表展示了DreamLoop在单轨迹点和多轨迹点设置下与基线方法的对比情况,实验结果表示DreamLoop超越了传统光流方法,其FVD、KID等指标具有显著优势,且性能随控制点增加持续提升。这验证了其基于视频扩散模型的框架能更有效地整合运动控制信号,生成更真实、连贯的动态效果。
除了常规任务,上表进一步展示了DreamLoop方法在刚性物体循环生成任务中的效果。在VBench的六个评估指标,特别是在运动平滑度和主体一致性上达到0.9964和0.9868,显著优于需要后处理的基线方法。实验验证了双条件化机制在保持时间稳定性与画面质量上的关键作用。
上图的实验结果展示了DreamLoop在流体元素与通用场景下的综合优势。上半部分展示了在流体场景中,DreamLoop能够模拟水流方向这种更真实的物理运动。下半部分展示了复杂人物场景,DreamLoop方法能精准控制局部运动并保持背景静态。上图的可视化结果验证了双条件化机制在平衡运动控制精度与时间一致性方面的有效性。
上图通过多样化场景进一步展示了DreamLoop在生成复杂、自然动态方面的效果。该方法不仅能模拟猫头转动、化妆刷扫动等生物运动,还可生成物体旋转及精细的手物交互动画,且仅需简单的边界框与轨迹点作为控制信号。
四、总结
本文提出了一种名为DreamLoop的可控动态摄影生成框架,旨在解决传统可控性不足和数据依赖的核心问题。该框架基于预训练图像到视频扩散模型,通过两大关键创新突破现有瓶颈。一是时序边界控制,训练时让模型学习首末帧的时空关联,推理时将输入照片同时作为首帧和末帧,从而保障生成结果无缝循环。二是运动控制,结合边界框序列(捕捉全局运动)与稀疏点轨迹(捕捉局部运动及背景静态约束),赋予用户对运动轨迹、速度、频率的细粒度控制。实验表明,该方法在FVD、FID等定量指标上超越了传统光流方法与视频扩散模型,其背景一致性、运动平滑度与可控性表现突出,为通用、高效的动态摄影创作提供了新范式。
参考
[1] Endo Y, Kanamori Y, Kuriyama S. Animating landscape: self-supervised learning of decoupled motion and appearance for single-image video synthesis[J]. arXiv preprint arXiv:1910.07192, 2019.
[2] Mahapatra A, Kulkarni K. Controllable animation of fluid elements in still images[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 3667-3676.
[3] Yang Z, Teng J, Zheng W, et al. Cogvideox: Text-to-video diffusion models with an expert transformer[J]. arXiv preprint arXiv:2408.06072, 2024.
[4] Wan T, Wang A, Ai B, et al. Wan: Open and advanced large-scale video generative models[J]. arXiv preprint arXiv:2503.20314, 2025.
llustration generated by AI.
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
yimingzhang@thejiangmen.com
或添加工作人员微信(aceyiming)投稿,沟通投稿详情
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
热门跟贴