《现代电影技术》｜贾云鹏等：创意影像生产中的可控视频生成技术路径及应用研究|现代电影技术|贾云鹏|逐帧

本文刊发于《现代电影技术》2026年第4期

专家点评

王岚君

研究员

天津大学新媒体与传播学院教授、博士生导师

当前，生成式视频技术正经历从“能够生成”到“可控生成”的关键跃迁。在这一进程中，可控性是生成式人工智能技术能否真正进入影视工业流程的关键门槛。缺乏可控性的生成结果本质上仍是随机采样的产物，无法满足导演对视觉风格统一性、镜头语言精准性和叙事节奏连贯性的专业要求。从技术演进来看，可控视频生成大致沿风格控制、时序控制与空间控制三个方向展开，分别对应影像创作中视觉美学、时间结构与空间叙事的核心需求。其中，风格迁移面临时序稳定性与内容保真度的平衡难题，关键帧插值在剧烈语义跳变场景中仍易出现结构扭曲，而相机运动引导则受制于三维一致性与遮挡推理的不足。未来，随着大模型对空间结构理解能力的增强以及生成流程与虚拟摄制、实时渲染引擎的进一步打通，可控视频生成有望从辅助工具演进为创作合作者，催生融合算法逻辑与电影美学的新型影像语言。《创意影像生产中的可控视频生成技术路径及应用研究》一文围绕上述核心问题展开了系统性研究，对风格迁移引导、关键帧引导与相机运动引导三条技术路径的原理与前沿方法进行了清晰梳理，并将各类技术路径与《异人之下》《石头剪刀布》《权利童话》等创作案例紧密结合，技术分析与创作实践相互印证。同时，论文对当前技术在多模态约束融合、三维一致性及长时序控制等方面的局限也作了客观分析。综上所述，本文兼具技术梳理的系统性与创作应用的启发性，对于理解和促进生成式人工智能技术与电影语言和影像美学的融合创新具有较高的参考价值。

项目信息

北京市宣传文化高层次人才培养资助项目“AIGC影像创意工作室”（京宣传文化人才24-1）。

作者简介

贾云鹏

教授，北京邮电大学数字媒体与设计艺术学院院长，主要研究方向：数字影像设计。

黄　慧

北京邮电大学数字媒体与设计艺术学院2023级硕士研究生，主要研究方向：数字媒体内容设计。

摘要

本文围绕创意影像生产中的可控生成问题，系统梳理了风格迁移引导生成、关键帧引导生成与相机运动引导生成3类技术路径的发展现状。文章结合创意影像案例，分析上述技术路径在艺术风格塑造、复杂过渡构建与叙事镜头调度中的具体应用方式，并指出当下仍存在多模态约束融合困难、三维一致性不足及长时序控制受限等问题。研究认为，可控视频生成正逐步成为连接生成式技术与电影语言的关键桥梁，将为未来数字影像的美学探索与创作生产流程带来新的可能性。

关键词

可控视频生成；创意影像生产；生成式人工智能（GAI）；扩散模型

引言

创意影像是一种艺术表现形式，其通过创新的思维和独特的表现手法，结合现代技术手段，突破传统影像创作的界限，以表达创作者的思想、情感和观点。影像的发展史始终是技术与艺术交织的过程，每一次技术革新都会促使影像语言产生新形态，从摄影、动画到数字影像，再到虚拟现实（VR）、增强现实（AR）等沉浸式媒介，都在不断推动创意影像的表达边界。随着生成式人工智能（GAI）的崛起，视频生成技术正成为推动影像创作方式变化的新动力，使影像从可记录、可编辑进一步走向可生成、可操控。

然而，当下主流视频生成模型虽已具备高质量生成能力，但其输出往往受限于模型自身的随机性，在视觉风格保持、时间连续性和镜头语言的可控性方面仍难以满足影视创作的专业需求。生成式人工智能技术若要真正进入电影、广告、实验影像等创作场景，必须从“能够生成”迈向“可控生成”。基于这一现实需求，本文以创意影像生产为背景，聚焦视频生成领域中3类关键的可控生成路径即风格迁移引导、关键帧引导与相机运动引导，系统梳理其技术原理、发展趋势与在电影及相关影像创作中的创新应用。本研究旨在阐明可控视频生成在创作实践中的作用机制，探讨其在扩展影像表现形式、增强叙事表达能力以及推动技术与创意融合方面的潜力，为未来GAI技术在影视创作领域的应用提供理论基础与实践参考。

视频生成技术发展

近年来，视频生成技术经历了快速而深刻的演进，其发展路径大体可从3类关键模型体系梳理：以生成式对抗网络（GAN）[1]和变分自编码器（VAE）[2]为代表的早期阶段，以扩散模型（Diffusion Model）为突破口的中期阶段，以及由Transformer结构主导的扩散变换器（Diffusion Transformer, DiT）时代。2021年前，GAN凭借生成器与判别器的对抗训练机制，推动了早期低分辨率视频生成的发展，但其训练不稳定、模式崩溃等问题始终难以完全克服。扩散模型的出现标志着生成建模的一次关键跃迁，其通过正向加噪和反向去噪的双过程机制，在生成质量、细节保真度和训练稳定性方面优于GAN，使视频生成具备了稳定、高质量、可扩展的基础[3]。

随着模型规模和算力的进一步提升，扩散模型逐渐与Transformer架构深度融合，形成目前最常见的DiT[4—6]体系。与传统的U型网络（U⁃Net）不同，DiT以自注意力机制为核心，能在统一的时空表征中捕捉更长序列的时间依赖，同时维持高分辨率的空间细节[7]，因此尤其适合处理复杂、多物体、多运动的动态场景。当前的主流视频大模型，如混元视频大模型等，均体现出这一技术方向的发展趋势。2026年，Seedance系列模型则进一步把视频生成从单纯追求高质量输出，推向更强调控制能力的新阶段。尤其是Seedance 2.0，采用统一多模态音视频联合生成架构，支持文本、图像、视频和音频4类输入，用户还可同时输入最多9张图片、3段视频和3段音频，使构图、动作、镜头运动、视觉效果和声音等信息都能作为生成条件参与控制[8]。同时，该模型还支持视频编辑和视频延展，使用户能够在已有结果上继续修改和扩展内容，从而减少了早期视频生成中较强的随机性和不确定性，推动视频生成逐步走向更稳定、更可控，也更接近流程化制作的内容生产方式。从系列演进来看，Seedance 1.0[9]已强调原生多镜头生成、文本到视频与图像到视频的统一建模，以及结构稳定和指令跟随能力，而Seedance 1.5 Pro[10]又进一步采用双分支DiT、跨模态联合模块和多阶段数据流程，强化了音画同步、口型匹配和镜头控制，这也为后续Seedance 2.0的统一多模态控制能力提供了技术基础。

不过，这类进展并不意味着视频生成中的基础难题已被完全解决。尽管技术取得了显著进展，视频生成仍面临诸多挑战，例如时间一致性难以长期保持，大幅运动会导致内容漂移，以及三维结构的重建仍不稳定等[11]。在创意影像生产的实际场景中，这些问题会直接影响镜头段落的可用性和可编辑性。正因如此，可控视频生成成为当前研究的重点方向，即通过在生成过程中引入特定约束，对生成结果进行引导与调节，使其在关键维度上更加可预测、可调度。

可控视频生成的技术路径及其创新应用

在创意影像的制作实践中，技术层面的可控性通常会被转化为具体的影像表达控制方式。结合创作流程与影像语言特征，可控视频生成中的核心控制点主要集中在3个方面，即整体视觉风格、画面过渡与段落连接，以及镜头视角与运动方式。围绕上述控制点，可控生成大体可分为3类技术路径，即风格迁移引导生成、关键帧引导生成与相机运动引导生成，如图1所示。风格迁移引导生成的技术演进路径从早期的逐帧处理与时间平滑，到基于 GAN 的视频风格化方法，并进一步发展到以扩散模型为核心的渲染方法，同时在近年结合神经辐射场（NeRF）将风格化拓展至三维场景。关键帧引导生成的技术路径从基于光流的传统帧间插值，发展到基于扩散模型的生成式帧间插值，并逐步引入双向生成结构与多模态条件约束。相机运动引导生成的研究在基于相机参数的扩散模型这一主流技术路线的基础上，分化出了强调相机姿态与3D场景一致性增强，面向多视角、多轨迹的一致视频生成及相机主体动作与相机轨迹联合控制等3个方向。

图1　创意影像生产中的可控视频生成技术路径

在创意影像生产中，上述3条技术路径直接作用于影像语言的不同层面。风格迁移引导生成通过整体调控色彩与材质，实现影像视觉语态的重构；关键帧引导生成以生成连续中间画面的方式，将镜头转场转化为画面生成式过渡；相机运动引导生成则使镜头视角与运动轨迹能够在生成过程中被直接设计，实现更高自由度的镜头调度。基于此，本章将分别围绕上述3条技术路径展开后续分析。

3.1 风格迁移引导生成

3.1.1 风格迁移引导生成的实现方法

风格迁移引导生成将参考图像、绘画或视频的艺术风格迁移到目标视频中，使视频呈现一致的视觉审美。早期方法通常采用逐帧风格化后再进行时间平滑处理[12,13]，虽然能够在一定程度上保持内容结构，但在复杂运动或光照变化场景下仍然容易出现闪烁、纹理抖动和风格漂移等问题。随着GAN模型的成熟，出现了更具专业性的视频卡通化[14]与视频转换[15]方法，在语义保持方面有所改进，但训练稳定性与跨域泛化能力仍存在局限。扩散模型的引入则显著提升了风格迁移引导生成的上限，其高保真建模能力使风格迁移可在保证结构一致性的前提下，呈现更丰富的纹理、笔触与光影特征，例如Rerender A Video[16]、StyleCrafter[17]等方法在统一的时空特征空间中对视频进行重新渲染。近年的研究在扩散模型的技术上进一步强调可控性与一致性，FRESCO[18]试图通过引入显式的时空对应关系，在跨帧连贯性和内容保真度等维度提供更精细的控制；StyleMaster[19]等框架试图在风格强度、区域范围、内容保持等维度提供更精细的调节空间。同时研究从二维图像扩展至三维场景建模，将NeRF与风格迁移结合，开辟了一个全新的研究方向，即3D场景风格化，从而生成具有任意视角一致性的风格化视频。ARF[20]与StyleNeRF[21]开启了基于NeRF的场景风格化方向，而后续方法如NeRFEdito[22]、MDS⁃NeRF[23]与CoARF[24]则进一步提升了语义控制、内容保真度与风格可控性，使风格迁移引导生成从图像外观替换迈向三维结构层面的整体视觉重塑。

3.1.2 风格迁移引导生成的创意应用

在创意影像生产的语境中，风格迁移引导生成为视觉语态的重构提供了重要的技术基础。其可在保持场景构图与叙事信息基本不变的前提下，对光影、色彩、材质乃至心理氛围进行不同程度的重塑，从而直接介入影像表达。

首先，风格迁移能够建立叙事层次的分化。电影《异人之下》在拍摄之初，导演便希望回忆段落能呈现出区别于现实叙事部分的新风格，以在视觉上构筑明确的时间区隔。为实现这一效果，电影团队在传统摹片动画工艺的基础上进一步引入基于人工智能（AI）的风格迁移，先通过真人摹片动画将实拍表演逐帧摹写，再利用经原作漫画风格数据微调的AI风格迁移模型，对每一帧进行统一的二维漫画化处理，最终打造出一种介于实拍与二维造型间的混合视觉语态[25]。AI的参与使写实表演与漫画式夸张得以在同一画面中融合，使回忆段落既忠于原作的漫画质感，又保持动作与情绪的连贯性，从而在整部影片的叙事结构中形成一个独立而清晰的视觉层级。

其次，风格迁移能够强化影像表达的情绪。短片《乌鸦》以舞者的真实影像为基础，让模型将其转译为荒凉风景中的乌鸦画作，视觉风格通过冷峻色调与象征性构图，营造出孤绝与荒凉的情绪氛围，使影像获得一种传统摄影难以达到的美学张力。再如短片《石头剪刀布》采用漫画式风格，在实拍素材的基础上进行AI风格迁移，将每一帧真人影像转化为具有高对比色彩、夸张轮廓与卡通化线条的动画画面。如图2所示，动画化的造型语言与真人表演相结合，使影像在视觉冲击力、节奏感与情绪感染力上得到同步强化，形成一种更加外放、炽烈的观看体验。

图2　短片《石头剪刀布》截图①

另外，在一些作品中，风格成为心理状态的外化机制。短片《致亲爱的自己》以真人实拍为基础，通过AI转绘将影像整体置换为低饱和的蓝色调与带有绘画纹理的动画质感，两者共同营造出一种介于清醒与恍惚间的心理氛围，使观众仿佛置身于记忆与内心独白构成的主观空间中。短片《迟滞现象》（Hysteresis）则以舞者的身体为载体，通过VQGAN、CLIP等生成式模型在实拍舞蹈影像上进行多轮AI转绘与投影，将身份不稳定、情绪噪声和感知错位具象为覆盖在皮肤表面的抽象线条与色块，使身体本身成为心理状态的显示器。实验性动画短片LUCID通过一镜到底的舞蹈实拍与多阶段AI生成流程相结合，影片受益于Kaiber AI、Runway Gen⁃2、Midjourney和Stable Diffusion XL等AI工具的整合[26]，对原始舞蹈画面进行从强抽象到相对具象的逐级重绘。在影像中，视觉风格从噪声般的抽象纹理逐渐收束为可辨识的人物与空间形态，外化了主体情绪从混乱、失序到逐渐整合与自我对齐的心理运动，AI风格迁移不再是视觉滤镜，而是情绪生成过程本身的可视化轨迹。

3.2 关键帧引导生成

3.2.1 关键帧引导生成的实现方法

关键帧引导生成的方法旨在利用起始帧与结束帧或多个关键帧生成中间的连续影像，使画面在时间上呈现自然过渡。传统视频插值主要依赖光流估计[27—29]，通过预测像素在不同帧之间的运动路径来合成中间帧。然而，这种方法在遇到大幅动作、遮挡关系变化、快速旋转等复杂场景时，往往难以精准推断真实运动，从而导致结构扭曲、伪影与过渡不自然等问题[30]。扩散模型的加入，使插值从运动预测转向内容重建。诸如MCVD[31]等模型证明扩散机制既可用于视频建模，也可用于插值，其多步迭代采样能够在潜在空间中重建更具语义合理性的中间状态，而非仅依赖像素级运动推测。2024年的TRF模型[32]更进一步提出通过双向生成结构从起始帧与结束帧同时出发，利用时间反转采样整合前后信息，在处理大跨度动作变化或显著语义跳变时保持更高的稳定性与连贯性。

在此基础上，当前关键帧引导插值的研究方向大部分在于提升生成的质量，特别是在复杂动作的场景下以及提升生成的可控性。围绕生成质量与运动复杂度，VIDIM通过低分辨率生成和条件超分辨率的两阶段架构，在复杂、非线性甚至含有运动歧义的场景中，仍能生成细节充分、结构稳定的中间序列[33]。VTG通过LoRA插值、双向运动预测等多种技术让镜头转场的自然性更高[34]。在可控性方面，基于扩散模型的插值方法的优势在于可在关键帧之外引入多模态条件，从而对插值过程施加更细粒度的结构与语义约束。扩散插值模型可通过适配器或注意力通路自然接入深度图、语义分割、音频、文本提示以及光流/轨迹等约束条件[35]，实现从结构对齐到语义风格的多层控制[30,36]。

3.2.2 关键帧引导生成的创意应用

关键帧引导生成技术的核心价值在于其使影像中不可见的过渡段得以被生成，而非仅通过剪辑拼接。这意味着原本需要依赖叠化、跳切或镜头运动处理的时间、空间与情绪转变，现在可以一种动态演化的方式被补写出来。如图3所示，以电影《深海》的一段叠化转场为例，原片的转场依赖于人物面部相似性，通过传统的叠化方式将两段情境连接，使时空的跳跃以一种平滑但相对静态的方式呈现。相比之下，基于关键帧引导的生成式结果并未停留在静态叠加层面，而是在保持人物哭泣这一情绪与表情连续性的前提下，引入了明确的镜头运动过程。生成序列中，镜头先向人物面部推进，再逐步推出并完成场景切换，使转场过程本身成为一个可感知的动态段落。

（a）电影《深海》的转场截图②

（b）使用AI工具生成的转场截图

图3　传统转场与生成式转场在时空连续性上的对比

在此基础上，关键帧引导插值在当代影像创作中逐渐形成了多样化的应用方向。一方面，其能表现时间、身份或状态的跨越。第十五届北京国际电影节AIGC电影单元优秀影片《当归》中，老人回头与青年形象间的转换采用了生成式关键帧插值的方法。创作者以老人和青年2个姿态相近的关键帧为锚点，让系统在其间生成连续中间帧，从而在保持动作连贯的前提下实现面容和服装的平滑切换。另一方面，关键帧引导也能支撑大规模意象流动。宣传片《AI我中华》的连续转场便展示了这一点。影片画面在每一帧中不断吸收新的提示信息，使文物、景观和时代在变形中被重建，像是一种在视觉空间中自然流动的文化溯源过程。当转场与旋转、推进等镜头运动结合时，画面会呈现出双重连续，空间在运动，画面在变化，内容也在生成，最终构成的是一种传统摄制手段难以达成的生成式视觉连续体。此外，关键帧引导还为高频动作场景提供了新的制作路径。在AI剧集《马丁症》的动作打斗段落中，创作者大量使用了漫画式风格、快速切换镜头与高密度动作信息。在制作流程中，创作团队借助可灵AI的首尾帧功能[37]，将复杂动作拆解为若干关键姿态，在起始帧与结束帧间自动生成过渡动作帧，同时配合脚本化的动作设计与图像测试，不断微调生成结果。通过这一闭环工作流，打斗镜头在保持漫画风格的同时，仍然具备流畅的运动节奏与明确的力学感，展示了生成式关键帧插值在高频运动场景中的动态稳定性与造型控制力。

3.3 相机运动引导生成

3.3.1 相机运动引导生成的实现方法

相机运动引导旨在通过模拟虚拟摄影机的运动轨迹以控制生成视频的视角变化，从而实现推拉、摇移、环绕、变焦等多种镜头语言。与风格或关键帧不同，相机运动的控制直接关系到三维空间一致性，因此难度更高。模型需同时理解摄影机的外参（旋转R、平移T）、内参（焦距等）以及场景的潜在三维结构。

近期大量工作逐步形成了基于相机参数的扩散模型这一主流技术路线，将完整的相机位姿序列作为附加控制信号，注入视频扩散模型的时间注意力或跨帧注意力中，从而在保持原有生成能力的前提下，显式约束镜头路径。在相机参数控制扩散模型的框架之上，大致有3个方向。第一类侧重精准相机姿态控制与3D一致性增强。如CameraCtrl[38,39]系列通过像素级Plücker嵌入强化了视点与场景几何间的对应关系。第二类工作关注多视角、多轨迹的一致视频生成。这类方法不仅要沿给定轨迹生成一个视频，还要在同一场景下生成多条相机路径对应的多段视频，并在它们之间保持三维一致，如ViewCrafter[40]和Cavia[41]。第三类则尝试统一相机与对象运动的三维控制，即在同一生成框架中同时操控主体动作与镜头路径，使运动逻辑与叙事目的更紧密地绑定。Cao等[42]提出联合控制人物动作与相机轨迹的Uni3C框架；CineMaster[43]等模型则从影视生产需求出发，将镜头、角色与光源的控制统一在一个 3D场景级管线中，面向长时段、叙事性较强的镜头设计。

3.3.2 相机运动引导生成的创意应用

生成式镜头运动为影像表达打开了全新的视听维度。对于创作者而言，镜头不再只是记录已存在空间的工具，而是一种可在潜在空间中自由书写运动轨迹、重构时空关系的表达手段。

一方面，AI可以极低成本模拟真实拍摄中难以完成甚至代价高昂的镜头运动。以经典的子弹时间为例，传统制作需在主体周围搭建密集的摄影机阵列才能实现视角凝固式的绕拍效果，而在生成式视频系统中，只需一张静态照片或一段短视频，模型便能推断人物形态与环境深度，生成围绕主体快速环绕的镜头，营造出时间被冻结、视角脱离物理限制的质感。类似地，复杂的升降、前冲、环绕等运动在现实拍摄中受制于轨道、吊臂或场地条件，而在生成式系统中则可被转化为一条可编辑、可随时试验的虚拟轨迹，使镜头运动本身成为高度可塑的创作资源。

另一方面，更具启发性的是生成式模型借由镜头运动所创造出的新型叙事体验。如科幻短片《第1001颗星球：AI重建地球档案》中，通过首尾帧驱动与运动控制结合生成多段连续的首尾帧镜头，画面在看似无限延展的场景中不断向前推进，既模拟了AI重建星球档案的过程，又营造出一种意识流般连续不断的观看感受。这类无限延展的运动在实体空间几乎不可实现，却在生成式空间中成为自然且可重复的表达方式。第三十届釜山国际电影节“未来影像——AI电影国际峰会”入选作品《权利童话》则将镜头运动与时间隐喻紧密融合，影片镜头围绕苹果不断环绕，苹果从鲜艳走向腐败，背景随之经历季节与时代的更迭，镜头运动在展示物体的同时，也生成了时间感、历史感与寓言意味，使运动本身承担叙事功能。短片Alzheimer借鉴鱼缸视角，呈现类似鱼眼镜头般的空间畸变感，强化了认知错位与记忆漂移的心理体验。同时，短片应用大量环绕镜头描绘阿尔茨海默症老人迷失后的彷徨、焦虑与无助感，以镜头运动外化其内部意识的破碎。

结语和展望

生成式视频技术不仅是提升影像生产效率的技术工具，其以风格迁移重塑视觉语态，以生成式转场改写时间过渡，以算法摄影机拓展镜头运动的可能，为创意影像生产提供了可控生成的路径，使当代影像获得了前所未有的表现张力与形式想象空间。

与此同时，这些技术本身仍存在明显局限，短期内难以被视作成熟的工业标准方案。当前风格迁移引导仍然在解决时序稳定性、内容保真度和用户可控性方面面临挑战；关键帧插值在复杂动作、剧烈语义跳变及遮挡关系频繁变化的场景中，也依然可能出现结构扭曲与运动逻辑不够清晰的问题；相机引导仍然受到三维一致性不稳定、遮挡错误、复杂运动难以解释等挑战的限制，但其在影视创作、虚拟镜头设计、动画制作等创意影像生产场景中的应用潜力已逐渐显现。

面向未来，随着人工智能大模型对三维结构与多模态条件的理解能力增强，以及生成流程与虚拟摄制、实时渲染引擎等工业管线的进一步打通，可控视频生成有望从辅助工具走向创作合作者，在保障可控性与可预期性的前提下，孕育出一套新的电影语言与影像美学，为创意影像带来更多尚未被命名的创新形式可能。

注释、参考文献

（向下滑动阅读）

① 图片来源：https://www.bilibili.com/video/BV1UY4y127Eb/?spm_id_from=333.337.search-card.all.click。

② 图片来源：https://www.bilibili.com/bangumi/play/ss44496?spm_id_from=333.1391.0.0。

[1] GOODFELLOW I J, POUGET⁃ABADIE J, MIRZA M, et al. Generative adversarial nets[J]. Adv Neural Inf Process Syst，2014, 27.

[2] KINGMA D P, WELLING M. Auto⁃Encoding Variational Bayes[EB/OL]. (2013⁃12⁃20) [2025⁃11⁃28]. https://arxiv.org/abs/1312.6114.

[3] ZHU Z, WANG X, ZHAO W, et al. Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond[EB/OL]. (2024⁃05⁃06)[2025⁃11⁃25]. https://arxiv.org/abs/2405.03520.

[4] WAN T, WANG A, AI B, et al. WAN: Open and Advanced Large⁃Scale Video Generative Models[EB/OL]. (2025⁃03⁃27)[2025⁃11⁃26]. https://arxiv.org/abs/2503.20314.

[5] YANG Z, TENG J, ZHENG W, et al. CogVideoX: Text⁃to⁃Video Diffusion Models with an Expert Transformer[C]//Proceedings of the International Conference on Learning Representations (ICLR), 2025.

[6] YAN Z, MA Y, ZOU C, et al. EEdit: Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing[EB/OL]. (2025⁃03⁃14)[2025⁃11⁃26]. https://arxiv.org/abs/2503.10270.

[7] XIE W, HU A, XIE Q, et al. Bibliometric Analysis and Review of AI⁃Based Video Generation: Research Dynamics and Application Trends (2020–2025)[J]. Discover Computing, 2025, 28: 130.

[8] ByteDance Seed Team. Seedance 2.0 Official Launch[EB/OL]. (2026⁃02⁃12)[2026⁃04⁃08]. https://seed.bytedance.com/en/blog/official-launch-of-seedance-2-0.

[9] GAO Y, GUO H, HOANG T, et al. Seedance 1.0: Exploring the Boundaries of Video Generation Models[EB/OL]. (2025⁃06⁃10)[2026⁃04⁃08]. https://arxiv.org/abs/2506.09113.

[10] Seed Vision Team. Seedance 1.5 pro: A Native Audio⁃Visual Joint Generation Foundation Model[EB/OL]. (2025⁃12⁃15)[2026⁃04⁃08]. https://arxiv.org/abs/2512.13507.

[11] MA Y, FENG K, HU Z, et al. Controllable Video Generation: A Survey[EB/OL]. (2025⁃07⁃22)[2025⁃12⁃05]. https://arxiv.org/abs/2507.16869.

[12] CHEN D, LIAO J, YUAN L, et al. Coherent online video style transfer[C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017.

[13] HUANG H, WANG H, LUO W, et al. Real⁃time neural style transfer for videos[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.

[14] YANG S P, JIANG L, LIU Z, et al. VToonify: Controllable high⁃resolution portrait video style transfer[J]. ACM Transactions on Graphics (TOG), 2022.

[15] YANG S, JIANG L, LIU Z, et al. StyleGANEX: StyleGAN based manipulation beyond cropped aligned faces[C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2023.

[16] YANG S, ZHOU Y, LIU Z, et al. Rerender A Video: Zero⁃shot text⁃guided video⁃to⁃video translation[C]//SIGGRAPH Asia 2023 Conference Papers, 2023.

[17] LIU G, XIA M, ZHANG Y, et al. StyleCrafter: Enhancing stylized text⁃to⁃video generation with style adapter[EB/OL]. (2023⁃11⁃29)[2025⁃12⁃04]. https://arxiv.org/abs/2312.00330.

[18] YANG S, ZHOU Y, LIU Z, et al. FRESCO: Spatial⁃temporal correspondence for zero⁃shot video translation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024.

[19] YE Z, HUANG H, WANG X, et al. StyleMaster: Stylize your video with artistic generation and translation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2025: 2630⁃2640.

[20] ZHANG K, KOLKIN N, BI S, et al. ARF: Artistic radiance fields[C]//European Conference on Computer Vision (ECCV), Springer, 2022: 717⁃733.

[21] GU J, SHEN Y, LIN Z, et al. StyleNeRF: A Style⁃based 3D⁃Aware Generator for High⁃resolution Image Synthesis[EB/OL].(2021⁃11⁃18)[2025⁃12⁃04]. https://arxiv.org/abs/2111.09784.

[22] SUN C, LIU Y, HAN J, et al. NeRFEditor: Differentiable Style Decomposition for Full 3D Scene Editing[EB/OL]. (2022⁃12⁃07)[2025⁃12⁃04]. https://arxiv.org/abs/2212.03848.

[23] LI Z, LI S, MA W, et al. Multi⁃level Dynamic Style Transfer for NeRFs[EB/OL]. (2025⁃10⁃01)[2025⁃12⁃04]. https://arxiv.org/abs/2510.00592.

[24] ZHANG D, FERNANDEZ⁃LABRADOR C, SCHROERS C. CoARF: Controllable 3D artistic style transfer for radiance fields[C]//Proceedings of the International Conference on 3D Vision (3DV). IEEE Computer Society, 2024: 612⁃622.

[25] 央视网. 幕后：结合AI 揭秘《异人之下》真人摹片动画[EB/OL]. (2024⁃08⁃16)[2025⁃11⁃28]. https://tv.cctv.com/2024/08/16/VIDEzDIK6Vmd5lBfcKu3L7ld240816.shtml.

[26] PHAM C, WINTERSBERGER P, HAGLER J. Animation in the Age of AI: Creative Dialog With Algorithms[C]//ISEA2024: 29th International Symposium on Electronic Art, 2024.

[27] HU M, JIANG K, ZHONG Z, et al. IQ⁃VFI: Implicit quadratic motion estimation for video frame interpolation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024: 6410⁃6419.

[28] LI Z, ZHU Z L, HAN L H, et al. AMT: All⁃pairs multi⁃field transforms for efficient frame interpolation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023: 9801⁃9810.

[29] LIU C, ZHANG G, ZHAO R, et al. Sparse global matching for video frame interpolation with large motion[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024: 19125⁃19134.

[30] ZHU T, REN D, WANG Q, et al. Generative inbetweening through frame⁃wise conditions⁃driven video generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025: 27968⁃27978.

[31] VOLETI V, JOLICOEUR⁃MARTINEAU A, PAL C. MCVD: Masked conditional video diffusion for prediction, generation, and interpolation[J]. Advances in Neural Information Processing Systems, 2022, 35: 23371⁃23385.

[32] FENG H, DING Z, XIA Z, et al. Explorative inbetweening of time and space[C]// ECCV 2024: 18th European Conference, Milan. Springer, 2024: 378⁃395.

[33] JAIN S, WATSON D, TABELLION E, et al. Video interpolation with diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024: 7341⁃7351.

[34] YANG Z, ZHANG J, YU Y, et al. Versatile Transition Generation with Image⁃to⁃Video Diffusion[EB/OL]. (2025⁃08⁃03)[2025⁃12⁃05]. https://arxiv.org/abs/2508.01698.

[35] ZHANG M, ZHANG M, YAN Q, et al. AceVFI: A comprehensive survey of advances in video frame interpolation[EB/OL]. (2024⁃01⁃04)[2025⁃12⁃05]. https://arxiv.org/abs/2401.01712.

[36] ZHANG G, ZHU Y, CUI Y, et al. Motion⁃aware generative frame interpolation[EB/OL]. (2025⁃03⁃03)[2025⁃12⁃04]. https://arxiv.org/abs/2503.01532.

[37] 小新. AI影像的新世界正在加载[EB/OL]. (2025⁃07⁃02)[2025⁃12⁃04]. https://vv.lmtw.com/mzw/content/detail/id/243935.

[38] HE H, XU Y, GUO Y, et al. CameraCtrl: Enabling camera control for text⁃to⁃video generation[EB/OL]. (2024⁃04⁃02)[2025⁃12⁃08]. https://arxiv.org/abs/2404.02101.

[39] HE H, YANG C, LIN S, et al. CameraCtrl II: Dynamic scene exploration via camera⁃controlled video diffusion models[EB/OL]. (2025⁃03⁃15)[2025⁃12⁃04]. https://arxiv.org/abs/2503.10592.

[40] YU W, XING J, YUAN L, et al. ViewCrafter: Taming video diffusion models for high⁃fidelity novel view synthesis[EB/OL].（2025⁃09⁃23）[2026⁃02⁃02]. https://ieeexplore.ieee.org/document/11176446.

[41] XU D, JIANG Y, HUANG C, et al. Cavia: Camera⁃controllable multi⁃view video diffusion with view⁃integrated attention[EB/OL]. (2024⁃10⁃14)[2025⁃12⁃08]. https://arxiv.org/abs/2410.10774.

[42] CAO C, ZHOU J, LI S, et al. Uni3C: Unifying precisely 3D⁃enhanced camera and human motion controls for video generation[EB/OL]. (2025⁃04⁃21)[2025⁃12⁃08]. https://arxiv.org/abs/2504.14899.

[43] WANG Q, LUO Y, SHI X, et al. CineMaster: A 3D⁃aware and controllable framework for cinematic text⁃to⁃video generation[C]//Proceedings of the ACM Conference. ACM, 2025.

期刊导读 |《现代电影技术》2026年第4期

中国电影电视技术学会电影创新技术奖交流会在京成功举办

中国电影科学技术研究所（电影技术质量检测所）参展CCBN2026，彰显电影科技自主创新实力