视频扩散模型全景解析：从生成到编辑再到理解的AI视频革命|编码器|视频扩散模型|视频生成模型

在人工智能生成内容（AIGC）的浪潮中，扩散模型正悄然改变着我们与视频内容的交互方式。从文本到视频的转换，到精细的视频编辑，再到深入的视频理解—视频扩散模型正在重新定义创作的边界。想象一下，只需一句简单的文字描述，便能生成一段栩栩如生的动画；只需几个简单操作，便能将静态图像转变为动态视频；甚至能让AI理解视频内容并作出智能反应。这不再是科幻电影中的场景，而是当下技术发展的现实。本文将揭开视频扩散模型的神秘面纱，带您一窥这场视觉革命背后的技术原理与未来潜力。

扩散原理探秘

扩散模型，这个近年来在计算机视觉领域异军突起的技术，正逐步取代生成对抗网络（GANs）和自回归Transformer模型，成为图像生成和编辑的主导力量。那么，这种模型到底是如何工作的呢？

想象一下水滴在墨水中扩散的过程——开始时，墨水集中在一点，随着时间推移，它逐渐扩散开来，最终均匀分布在整个水中。扩散模型的原理与此类似，但方向相反。它学习如何从一个混乱的、随机的状态（类似于均匀分布的墨水），逐步恢复到有结构的数据（如一张清晰的图片或一段连贯的视频）。

目前主流的扩散模型主要有三种形式：去噪扩散概率模型（DDPMs）、基于分数的生成模型（SGMs）和随机微分方程（Score SDEs）。虽然表达形式不同，但核心思想相通——都是通过逐步去除噪声来生成数据。

在DDPM中，过程分为两个阶段：前向过程将数据逐步加入噪声，直到完全变成随机噪声；反向过程则学习如何从噪声逐步恢复原始数据。当模型训练好后，只需从简单的高斯分布中采样一个随机向量，然后通过学习到的反向过程，就能生成全新的、逼真的数据。

从图像扩散模型发展到视频扩散模型并非易事。与图像不同，视频是一系列时间上连续的帧，需要模型不仅能够生成视觉上逼真的单帧，还要保持跨帧的时间连贯性。早期的视频生成模型VDM开创性地将图像扩散U-Net架构扩展到3D U-Net结构，并采用图像和视频的联合训练。通过条件采样技术，它能生成质量更高、时长更长的视频。

随着研究深入，视频扩散模型形成了三大核心应用领域：视频生成、视频编辑和视频理解。视频生成包括文本到视频（T2V）生成、条件视频生成和无条件视频生成；视频编辑涵盖保持原始视频结构的同时修改内容；视频理解则利用扩散模型的生成能力辅助传统视频分析任务。这三个领域各有特点，又相互关联，共同推动视频扩散技术的全面发展。

视频生成新突破

随着扩散模型技术的快速发展，视频生成领域取得了令人瞩目的进步。从最初简单的文本到视频转换，到如今能够融合多种模态条件的复杂生成系统，视频扩散模型正在不断拓宽我们对视频创作的认知边界。

文本引导的视频生成是最受关注的研究方向，占据了视频扩散研究的半壁江山。在这一领域，Make-A-Video开创了一种创新方法，它通过从成对的图像-文本数据中学习视觉-文本关联，并从无标注的视频数据中捕捉运动信息。这种方法减少了对数据收集的依赖，能生成多样化且逼真的视频。而ImagenVideo则将成熟的文本到图像模型Imagen扩展到视频生成任务，采用级联视频扩散模型，由七个子模型组成：一个用于基本视频生成，三个用于空间超分辨率，三个用于时间超分辨率。

时间建模是视频生成的关键挑战。MagicVideo和LVDM都采用了潜在扩散模型（LDM）作为骨架，在较低维度的潜在空间中应用扩散模型，显著降低计算复杂度，加快处理速度。VideoFusion则考虑了不同帧之间的内容冗余和时间相关性，通过两个共同训练的网络实现噪声分解，确保生成帧运动的一致性。

不同于依赖大规模训练的方法，一些研究者正在探索无需训练的文本到视频生成方法。Text2Video-Zero利用预训练的文本到图像模型Stable Diffusion进行视频合成，通过对各帧和第一帧之间执行Cross-Attention机制来保持不同帧之间的一致性。DirecT2V和Free-Bloom则引入大型语言模型，根据单个抽象用户提示生成逐帧描述，并采用了一系列反向过程增强技术，包括联合噪声采样、步骤感知注意力偏移和双路径插值，这些修改提高了零样本视频生成能力。

除了文本，视频生成还可以由其他多种模态条件引导，如姿态、运动、声音等。Follow Your Pose提出了一个由姿态和文本控制的视频生成模型，采用两阶段训练过程，利用图像-姿态对和无姿态标签的视频。MCDiff则开创性地将运动作为控制视频合成的条件，提供视频的第一帧和一系列描边运动，利用流完成模型预测基于稀疏描边运动控制的密集视频运动。AADiff引入了同时使用音频和文本作为视频合成条件的概念，分别用专用编码器对文本和音频进行编码，计算文本和音频嵌入之间的相似性，并选择相似性最高的文本标记。

视频补全技术，包括增强、修复与预测，也是视频生成的重要组成部分。CaDM引入了一种新型神经增强视频流范式，旨在显著降低流媒体传输比特率，同时保持远高于现有方法的修复能力。Seer专注于探索文本引导的视频预测任务，使用潜在扩散模型作为基础骨架，通过在自回归框架中集成时空注意力以及实现帧序列文本分解器模块，将文本到图像模型的知识先验转移到视频预测领域。

各种视频生成方法在不同基准数据集上的表现也各有特色。在零样本T2V生成任务中，依赖ChatGPT或其他输入条件的方法比其他方法具有显著优势，使用额外数据通常能带来更好的性能。在微调视频生成任务中，基于扩散的方法相比传统的GANs和自回归Transformer方法展现出明显优势，大规模预训练或类别条件引导往往能进一步提升性能。

随着视频扩散模型的不断发展，我们可以预见未来会有更多创新的视频生成应用出现，包括更长时间、更高清晰度、更符合语义的视频生成，以及跨多模态的复杂视频合成系统。这些进步不仅会改变视频创作的方式，还将为影视制作、教育培训、虚拟现实等领域带来革命性的变革。

编辑魔法揭秘

视频编辑技术正经历一场由扩散模型引领的革命性变革。传统视频编辑通常需要复杂的专业软件和精湛的技术，而基于扩散模型的视频编辑则打开了一扇通向简易创作的大门，让复杂的视频修改变得简单直观。

文本引导的视频编辑是目前研究最为活跃的方向。在这类方法中，用户只需提供一段原始视频和描述期望修改的文本提示，就能实现视频的智能化编辑。比如，你可以输入＂将视频中的小狗变成一只猫＂，系统就能自动完成这一转换。这些方法大致可分为三类：基于训练的方法、免训练方法和单次微调方法。

基于训练的方法通常在大规模视频-文本数据集上进行训练，形成通用的视频编辑模型。例如，GEN-1模型提出了一种结构和内容感知的框架，能够完全控制视频的时间、内容和结构一致性。它将时间层引入预训练的文本到图像模型，并在图像和视频上联合训练，实现了对时间一致性的实时控制。Dreamix的高保真度源于两项主要创新：使用原始视频的低分辨率版本初始化生成过程，以及在原始视频上微调生成模型。

免训练方法则利用预训练的文本到图像或文本到视频模型，以零样本方式适应视频编辑任务。相比训练基础的方法，免训练方法无需昂贵的训练成本。不过，这些方法也面临一些潜在缺点，如零样本编辑的视频可能产生空间-时间失真和不一致，且使用文本到视频模型的方法仍可能产生高昂的训练和推理成本。

TokenFlow证明了通过在扩散特征空间中强制一致性，可以实现编辑视频的一致性。具体来说，这是通过采样关键帧、联合编辑它们，并基于原始视频特征提供的对应关系，将关键帧的特征传播到所有其他帧来实现的。这一过程明确地维持一致性和原始视频特征的细粒度共享表示。VidEdit结合了基于图集的方法和预训练的文本到图像模型，不仅展现出高度的时间一致性，还提供了对视频内容外观的对象级控制。

单次微调方法涉及使用特定视频实例微调预训练的文本到图像模型，使其能够生成具有相似运动或内容的视频。虽然这需要额外的训练费用，但这些方法比免训练方法提供了更大的编辑灵活性。SinFusion开创了基于单次微调的扩散模型，它可以从仅仅几帧中学习单个输入视频的运动。其骨干是一个完全卷积的DDPM网络，因此可以用于生成任何大小的图像。

除了文本引导外，视频编辑还可由其他模态引导，如指令、声音和运动等。指令引导的视频编辑旨在根据给定的输入视频和指令生成视频。由于缺乏视频-指令数据集，InstructVid2Vid利用ChatGPT、BLIP和Tune-A-Video的组合，以相对较低的成本获取输入视频、指令和编辑视频的三元组。

声音引导的视频编辑的目标是使视觉变化与目标区域的声音保持一致。为了实现这一目标，Soundini提出了用于扩散采样的局部声音引导和光流引导。具体来说，音频编码器使声音潜在表示在语义上与潜在图像表示保持一致。

针对特定领域的视频编辑也是一个热门研究方向。视频重着色涉及推断灰度帧的合理且时间上一致的颜色，这需要同时考虑时间、空间和语义一致性以及色彩丰富度和忠实度。基于预训练的文本到图像模型，ColorDiffuser提出了两种新颖技术：颜色传播注意力作为光流的替代品，以及交替采样策略以捕获相邻帧之间的时空关系。

人类视频编辑也得到了广泛关注。Diffusion Video Autoencoders提出了一种扩散视频自编码器，它从给定的以人为中心的视频中提取单个时不变特征（身份）和每帧时变特征（运动和背景），并进一步操作单个不变特征以获得所需属性，从而实现时间一致的编辑和高效计算。

智能理解前瞻

扩散模型不仅在视频生成和编辑领域大放异彩，在视频理解任务中也展现了巨大潜力。视频理解涵盖了一系列基础任务，如动作检测、异常检测、文本-视频检索等，这些任务对于构建智能视频分析系统至关重要。

在时间动作检测与分割领域，DiffTAD探索了扩散模型在时间动作检测任务中的应用。该方法扩散长视频的真实提案，并通过在DETR架构中引入专门的时间位置查询来学习去噪过程。该方法在ActivityNet和THUMOS等基准测试中取得了最先进的性能结果。类似地，DiffAct利用相似的方法处理时间动作分割任务，在GTEA、50Salads和Breakfast等广泛使用的基准测试中验证了该方法的有效性。

视频异常检测是另一个重要的理解任务。Diff-VAD和CMR利用扩散模型的重建能力来识别异常视频，因为高重建误差通常表明异常。在两个大规模基准测试中进行的实验证明了这种范式的有效性，与之前的研究相比显著提高了性能。MoCoDAD则专注于基于骨架的视频异常检测，该方法应用扩散模型根据个体过去的动作生成多样且合理的未来动作。通过统计聚合未来模式，当生成的一组动作偏离实际未来趋势时，就会检测到异常。

文本-视频检索任务也从扩散模型中受益。DiffusionRet将检索任务形式化为一个从噪声逐渐生成联合分布p（candidates， query）的过程。在训练过程中，生成器使用生成损失进行优化，而特征提取器使用对比损失进行训练。通过这种方式，DiffusionRet巧妙地结合了生成方法和判别方法的优势，在开放域场景中表现出色，展示了其泛化能力。MomentDiff和DiffusionVMR则解决了视频时刻检索任务，旨在识别与给定文本描述相对应的视频中的特定时间间隔。

在其他视频理解任务中，RSFD研究了视频字幕中常被忽视的长尾问题，提出了一种新的频率扩散精细语义增强方法，通过不断识别低频令牌的语言表示来改善字幕生成。Pix2Seq-D将全景分割重新定义为离散数据生成问题，利用基于模拟位的扩散模型对全景掩码进行建模，能够通过合并前一帧的预测来模拟视频，从而实现对象实例跟踪和视频对象分割的自动学习。

尽管视频扩散模型取得了显著进展，但仍面临着一些关键挑战。收集大规模视频-文本数据集是一项艰巨任务，目前广泛使用的WebVid数据集仅包含1000万个实例，且存在视觉质量有限、分辨率低（360P）和存在水印伪影等显著缺点。虽然获取数据集的新方法正在探索中，但在数据集规模、注释准确性和视频质量方面仍需要改进。

与T2V模型相关的高昂训练成本也是一个重大挑战，一些任务需要使用数百个GPU。尽管SimDA等方法试图减轻训练费用，但数据集规模和时间复杂性仍然是关键问题。因此，探索更高效的模型训练策略和减少推理时间是未来研究的重要方向。

虽然开放域视频生成存在基准测试和评估方法，如MSRVTT和UCF-101数据集以及FVD和IS等指标，但它们在范围上相对有限。由于文本到视频生成中生成视频没有真实参考，现有指标如FVD和IS主要强调生成视频与真实视频分布之间的差异，这使得难以获得全面反映视频生成质量的综合评估指标。目前，用户AB测试和主观评分仍被广泛使用，但这些方法费时费力且可能因主观性而产生偏差。构建更加量身定制的评估基准和指标是未来研究的另一个有意义的方向。

现有方法尽管展示了显著进步，但由于模型能力不足仍存在诸多限制。例如，视频编辑方法在某些情况下经常遇到时间一致性失败，如将人物形象替换为动物。为了追求高保真度，许多当前基于文本到图像的模型使用原始视频的关键帧。然而，由于现成图像生成模型的固有限制，在保持结构和时间一致性的同时注入额外对象仍然是一个未解决的问题。解决这些限制需要进一步的研究和改进。

参考资料

Xing， Z.， Feng， Q.， Chen， H.， Dai， Q.， Hu， H.， Xu， H.， Wu， Z.， &； Jiang， Y. （2023）. A Survey on Video Diffusion Models. arXiv:2310.10647.
Ho， J.， Jain， A.， &； Abbeel， P. （2020）. Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems.
Rombach， R.， Blattmann， A.， Lorenz， D.， Esser， P.， &； Ommer， B. （2022）. High-resolution image synthesis with latent diffusion models. CVPR.
Singer， U.， Polyak， A.， Hayes， T.， Yin， X.， An， J.， Zhang， S.， Hu， Q.， Yang， H.， Ashual， O.， Gafni， O.， et al. （2022）. Make-a-video: Text-to-video generation without text-video data. ICLR.
Ho， J.， Salimans， T.， Gritsenko， A.， Chan， W.， Norouzi， M.， &； Fleet， D. J. （2022）. Video diffusion models. arXiv preprint arXiv:2204.03458.