《现代电影技术》｜黄东晋等：人工智能生成内容在电影创制中的革新：ECCV 2024 AIGC技术综述|eccv|人工智能|动画|大模型|现代电影技术|算法|黄东晋

本文刊发于《现代电影技术》2024年第11期

专家点评

人工智能技术的飞速发展与广泛应用为电影创制领域带来了一场深刻的变革。AIGC技术及其在图像生成、视频生成、3D生成等方面的突破性进展，为电影行业带来了前所未有的创新动力。当前在图像、视频和3D内容生成中的AIGC前沿技术，在提升内容真实感、多样性和可控性方面取得了显著进展。同时，这些技术在剧本撰写、特效制作、角色扮演等电影创制环节可以有效简化制作流程、降低成本，并为创作者提供更多样化的工具和方法。然而，尽管AIGC技术为电影创制带来了巨大潜力，但也面临着技术可控性、版权保护和创作者权益等挑战。此外，只有在技术创新与伦理规范的共同推动下，AIGC技术才能更好地赋能电影创制，助力电影产业的高质量发展。《人工智能生成内容在电影创制中的革新：ECCV 2024 AIGC 技术综述》深入探讨了ECCV 2024会议上展示的AIGC技术在电影创制中的融合创新应用，揭示了AIGC技术如何推动电影制作流程的自动化和智能化，以及其在提升作品艺术价值和市场竞争力方面的潜力。整体而言，本文为读者提供了一个关于AIGC技术在电影创制中应用的全面视角，不仅展示了技术的进步，也提出了行业发展中需要关注的问题，对于电影行业的从业者和研究人员来说，这是一篇兼具启发性和指导性的文章。

——叶龙

教授

中国传媒大学数据科学与智能媒体学院院长

作者简介

黄东晋

上海大学上海电影学院、上海电影特效工程技术研究中心副教授、博士生导师，主要研究方向：虚拟现实、人工智能、数字影视技术等。

上海大学上海电影学院博士研究生在读，主要研究方向：深度学习、图像处理等。

刘金华

王　倩

上海大学上海电影学院硕士研究生在读，主要研究方向：计算机视觉与深度学习。

上海大学上海电影学院硕士研究生在读，主要研究方向：深度学习、生成式模型等。

汤译翔

摘要

近年来，人工智能生成内容（AIGC）技术取得突破性进展，电影行业作为内容创作和传播的重要阵地，正面临AIGC技术带来的变革浪潮。本文深入剖析2024年欧洲计算机视觉国际会议（ECCV）在AIGC领域的最新研究成果，重点探讨图像生成、视频生成、3D生成等前沿技术以及在电影创制领域的融合创新应用。最后，本文总结AIGC技术在电影创制流程中的巨大潜力和当前面临的挑战，并对其未来的发展路径进行了展望。

关键词

电影创制；人工智能生成内容；图像生成；视频生成；3D生成

1引言

欧洲计算机视觉国际会议（European Conference on Computer Vision, ECCV）自1986年在法国首次举办以来，已发展成为计算机视觉（CV）和人工智能（AI）领域最具影响力的学术盛会之一。ECCV 每两年举办一次，吸引了来自全球的顶尖研究人员和业界专家前来分享图像处理、机器学习（ML）、模式识别、深度学习（DL）等领域的最新研究成果和技术突破。ECCV 2024于9月29日至10月4日在意大利米兰召开，大会共收到8585篇论文投稿，最终录用了2395篇，录用率为27.9%[1]。

在本届大会上，人工智能生成内容（Artificial Intelligence Generated Content, AIGC）成为主要的焦点议题，展示了其在视觉生成和内容创作中的巨大潜力。AIGC在图像生成与编辑、视频生成与编辑、3D生成与编辑等领域取得了显著进展，特别是扩散模型（Diffusion Model）、生成式对抗网络（GAN）、变分自编码器（VAE）等生成技术，极大提升了图像、视频和3D生成的真实感、多样性和可控性。这些创新成果极大地推动了影视、游戏、动画等文化创意产业的应用创新，深刻重塑其创制流程。

2AIGC技术与电影创制

传统的电影创制流程通常包括剧本撰写、分镜头绘制、场景搭建、演员表演、特效制作、剪辑与后期处理等多个环节。而传统电影制作方法尤其在特效制作、角色扮演、动画生成和后期编辑等方面存在诸多局限性[2]，视觉效果和特效的制作尤其耗时耗力，往往需要依赖专业的艺术家、动画师和特效团队通过手工绘制、3D建模、动画渲染等方式逐帧完成。尽管这种流程能确保影片的高质量，但其制作周期漫长、成本高昂，且对创作者的专业技能要求较高。此外，在视觉效果和创意表达上，传统流程常受到技术手段和资源的限制，难以快速响应创意需求的变化和市场的多样化需求。

近年来，AIGC技术飞速发展，在各领域大放光彩。电影作为极具代表性的文化创意产业，正逐步成为AIGC技术实践与创新的重要舞台。该技术不仅在图片生成、视频生成与编辑等方面带来了创新，还在场景构建、虚拟角色的创作与3D动作生成等领域推动了电影创制的不断革新。通过自动化和个性化的内容创作，AIGC 技术正在为电影产业带来全新的可能性，使创制过程更加高效、灵活且富有创造力，进一步推动了电影创制与科技发展的深度融合。

ECCV 2024 会议上发表的 AIGC 相关研究更好地为电影创制带来新的技术突破，为简化制作流程、提升作品的艺术价值和市场竞争力提供技术支撑。本文将深入探讨这些技术在电影创制中的具体应用以及将带来的变革，阐述其如何进一步推动电影创制的智能化进程，为创作者提供更加多样化的工具和方法，从而提升电影的创意表达能力和生产效率。

3ECCV 2024中AIGC技术发展综述

本章深入分析ECCV 2024会议中关于图像生成与编辑、视频生成与编辑、3D生成与编辑等AIGC技术的最新研究进展，并就这些关键技术在电影创制领域的应用潜力与价值展开讨论（图1）。

图1　 ECCV 2024中AIGC技术的最新研究成果及其在电影创制领域的创新应用

3.1 图像生成与编辑

多样化的图像生成与编辑技术正在为电影制作行业开辟新的可能性。创作者可利用这些先进工具，创造出更为丰富和引人入胜的视觉效果。这些技术的结合使电影制作不再局限于传统手段，从而在视觉表现上实现更大的灵活性与创新性。无论是生成新图像、编辑现有素材，还是对画面进行增强，这些手段都极大地丰富了故事叙述方式。

（1）图像生成技术

图像生成技术可基于文本描述、草图或现有图像生成高质量的新图像，广泛应用于电影制作领域。通过不断优化算法，这些技术能够实现更具创意、更细腻的视觉效果。

Xue等[3]提出一种优化框架，用于改进去噪扩散概率模型（Denoising Diffusion Probabilistic Model, DDPM）的采样效率。该框架通过设计一个优化目标，最小化常微分方程的真实解与数值求解的近似解之间的距离。利用约束信任区域方法，该目标能在15秒内高效达成。该优化框架显著提升了在CIFAR⁃10和ImageNet数据集上的图像生成性能，表现出相较于其他方法平均所需时间的明显优势。

Sun等[4]提出的AnyControl是一种创新的多控制文本到图像（T2I）生成方法。其通过多控制编码器，有效将用户指定空间条件（如深度图和边缘图）整合至预训练模型中。AnyControl支持多种控制信号的自由组合，通过统一的多模态嵌入，AnyControl可引导生成过程，产生高质量且准确可靠的结果。

Hong等[5]提出的ComFusion方法，是一种个性化的文本到图像生成方法，其能从单一图像生成多个特定场景中的个性化主体。ComFusion引入了类别场景先验以保持正则化，利用预训练模型中的主体类别和场景特定知识，提高了生成图像的保真度。

Kim等[6]提出的BeyondScene框架，利用分阶段和层次化的方法，首先生成基础图像，专注于多人实例创建中的关键元素和超出扩散模型Token限制的详细描述。之后通过创新的实例感知层次放大过程，将基础图像无缝转换为超过训练图像尺寸的高分辨率输出。此框架显著提高了与详细文本描述的一致性和自然度，能够用于创建高质量的带角色影视图片素材，对于电影海报、概念设计等需求有所助益。

（2）图像编辑技术

图像编辑在影视行业中的应用需求同样广泛，主要体现在实时特效添加、个性化内容创作、跨媒体整合和成本效益等方面。创作者可根据不同应用需求快速调整视频内容，实现高质量、个性化定制，灵活的编辑工具还可降低后期制作的时间和成本。

Koo等[7]提出的FlexiEdit技术旨在解决当前图像编辑方法在处理非刚性编辑时遇到的挑战。FlexiEdit引入了两项关键技术：一是隐空间精炼，通过减少目标编辑区域内的高频成分来调整隐式去噪模型（Denoising Diffusion Implicit Models, DDIM）的隐空间，使其更适合布局修改；二是编辑保真度增强，通过重新逆向过程确保编辑结果更精确地反映输入文本提示。这项技术在图像编辑领域，尤其是在执行复杂的非刚性编辑方面，取得了显著进步。

Cui等[8]提出的StableDrag技术旨在解决基于点的图像编辑（Point⁃based Image Editing）现存的两大主要问题，即不准确的点跟踪和不完整的运动监督。StableDrag通过设计一种判别式点跟踪方法和基于置信度的潜在空间增强策略来构建一个稳定且精确的拖拽编辑框架。得益于这些独特的设计，StableDrag实现了包括StableDrag⁃GAN和StableDrag⁃Diff在内的两类图像编辑模型。拖动形式施加的图像编辑更符合人的操作直觉，借助此类技术，能够构建出快捷易用的工作流，使影视从业者不必增加学习成本即可轻松完成编辑。

除通用的图像编辑方法，Jin等[9]提出一种全新的学习范式，即数据放大学习（Data Amplify Learning, DAL）及其紧凑型化妆模型 TinyBeauty，以应对当前面部化妆方法中存在的不准确监督（如脸部对齐错误）和复杂面部提示（包括脸部解析）等问题。DAL的核心在于使用基于扩散的数据放大器（Diffusion⁃based Data Amplifier），避免了传统扩散模型中的细节消失问题，并在保留面部身份的同时实现精确的化妆控制与组合。这种专门针对化妆编辑的模型能大大增加影视后期对演员妆造的修补增强，驱动更细腻完善的视觉效果。

（3）图像增强技术

图像增强技术在影视行业的应用主要体现在后期制作、超分辨率重建、色彩增强、场景合成、去噪声处理和虚拟角色合成等方面。这些技术能修复拍摄瑕疵，提高素材质量，并使图像更加鲜艳真实，提升观影体验。此外，通过去噪声和合成技术，创作者能够更高效地处理低光环境素材和生成自然的虚拟角色，从而实现更高的创作自由和可能性。

Li等[10]提出一种新的超分辨率技术，通过动态深度神经网络（Dy⁃DCA）和内容感知数据处理流水线（Content⁃Aware Data Processing Pipeline）减少模型数量，从而优化性能并节省计算资源。该技术在普通手机上实现了更好的峰值信噪比（PSNR）和实时性能。

Li等[11]提出的BeNeRF是针对从单张模糊图像及其对应的事件流中恢复神经辐射场（Neural Radiance Field, NeRF）的一种创新方法。该方法通过引入事件流来规范NeRF的学习过程，有效消除了运动模糊。该方法不仅能从学习到的NeRF渲染视角一致的潜在清晰图像，还能以高质量重现模糊图像的生动效果，进而辅助影视制作中的素材修复与增强，传统方法中需丢弃的废片，可通过去模糊恢复其使用价值。

Sun等[12]提出一种基于直方图变换器(Histoformer)的方法，用于恶劣天气条件下的图像恢复。该方法主要针对由天气引起的退化因素，如相似的遮挡和亮度变化等，提出直方图自注意力机制，将空间特征按照强度分箱处理，并在不同的或同一个箱内应用自注意力，以便有选择地关注动态范围内的空间特征并对像素进行处理。Histoformer可用于改善恶劣天气下影视拍摄的质量，特别是外景情况下对天气环境的依赖性。

Fu等[13]提出名为Temporal As a Plugin（TAP）的新型无监督视频去噪框架及逐步微调策略，旨在解决获取动态场景配对视频数据的难题。TAP能利用跨噪声帧的时间信息，补充其空间去噪能力。噪声引起的图像退化是影视资料保存过程中的主要问题之一，通过不断优化的去噪方法，可实现对受到噪声影响的老电影进行修复，也可增强拍摄的图像素材。

Zhuang等[14]提出的PowerPaint是首个能同时高质量完成上下文感知图像修复和文本引导对象修复任务的模型。其通过引入可学习的任务提示及定制化微调策略，明确指导模型专注于不同的修复目标，从而克服了现有方法难以同时处理这两种类型修复任务的挑战。

图像生成与编辑技术在影视创制各阶段展现出广泛的应用潜力。图像生成技术不仅加速了图像生成过程，支持快速批量生产图片素材，还通过个性化的图片控制手段赋予创作者更大的创作自由度，便于他们根据影片需求微调或快速迭代图片要素。这在概念设计和原型展示阶段尤为重要，能有效缩短制作周期并降低成本。图像编辑技术不仅优化了传统工作流程中的编辑环节，提高了素材处理的效率和灵活性，还增强了创作者对AI生成图像的控制能力，确保最终作品能够更好地满足创作意图。在影视制作中后期，图像增强技术可用于图像修复、去噪、去模糊及恶劣天气条件下图像质量的恢复，从而减少废片率。与直接生成图像相比，基于现有素材的图像增强技术更加可控和实用，成为推动AIGC在影视行业应用的关键因素之一。与此同时，上映影片的技术指标也在不断提升，如由李安执导的《双子杀手》于2019年上映，其影片技术规格达到了3D 4K 120 FPS。如此高规格的影片，目前只有少数头部制作机构能涉足，而AI赋能的图像超分辨率、补帧等技术将把高新技术格式制片带向更多从业者。

3.2 视频生成与编辑

随着深度学习和计算机视觉技术的飞速发展，AI驱动的视频处理系统已能够执行从无到有的视频生成、复杂的视频编辑与后期制作等任务。这些技术不仅大大提高了电影创制效率，还为创作者提供了前所未有的创意可能性。视频生成任务包括从文本、图像或简单草图生成完整视频序列，而编辑任务则涵盖了视频内容的修改、增强和转换。这些AI系统能够理解并操作视频的多个方面，包括视觉内容、运动动态、音频同步，甚至是叙事结构和情感表达。

（1）视频生成技术

视频生成技术利用深度学习和神经网络（Neural Network）模型，能够从文本描述、静态图像或简单的草图输入中自动创造出符合描述的高保真视频序列。如生成影视和游戏中的场景、角色、特效等，或根据原始影片生成电影预告片，根据产品文字介绍生成视频广告等，具备广阔的应用前景。

Guo等[15]提出SparseCtrl，一种为预训练的文本生成视频模型添加时间稀疏控制的方法。通过附加编码器网络，SparseCtrl可适应包括深度、草图和RGB图像在内的多种模态，极大增强了视频生成的实用性。该方法在草图到视频、图像动画、关键帧插值等应用中，都显示出有效性和较好的泛化能力。

Ren等[16]提出Customize⁃A⁃Video方法，能实现对文本到视频扩散模型的一次性运动定制。该方法通过优化模型参数，使模型可根据文本提示和参考视频，生成具有特定动作和运动特征的视频。其优势在于保持文本对齐和时间一致性的同时，还能提供丰富的运动细节多样性。

Liu等[17]提出PhysGen，一种基于刚体物理的图像到视频生成方法。它通过结合物理引擎和深度学习技术，能从静态图像生成逼真、物理上合理的视频。该方法无需训练，生成的视频具有高度的现实感和可控性，展示出优于现有数据驱动的图像到视频生成作品的结果。

Liang等[18]提出MoVideo方法，利用扩散模型来生成具有运动感知能力的视频，通过结合文本提示和运动信息来生成连贯且逼真的视频序列。MoVideo在文本到视频和图像到视频的生成方面都取得了良好的效果，显示了良好的即时一致性、帧一致性和视觉质量。

Wu等[19]提出FreeInit方法，旨在解决视频扩散模型在初始噪声设置上的问题，通过迭代细化初始噪声提高视频生成的时间一致性。研究者们展示了该方法在多个扩散模型上的有效性，包括VideoCrafter、ModelScopeT2V和AnimateDiff，并探讨了在频率域中调节初始噪声的不同频率成分以改善时间一致性。

Li等[20]提出ZeroI2V方法，能将预训练的图像Transformer模型零成本地适应到视频任务上。研究者们通过引入空间-时间动态头注意力（Spatial⁃Temporal Dynamic Head Attention, STDHA）和线性适配器（Linear Adapter）来增强模型对视频数据的时间建模能力，同时保持了参数数量的最小化。该方法在视频识别任务上取得了优异性能，并且比全参数微调的参数更新更少，但性能呈现显著提升。

Niu等[21]提出图像动画控制方法MOFA⁃Video，能利用额外的控制信号（如人体标记参考、手动轨迹和提供的其他视频）或它们的组合，从给定的图像生成视频。为实现这一目标，该论文设计了几种领域感知的运动场适配器（MOFA⁃Adapters），以控制视频生成过程中的生成运动。通过这种方法实现了对图像动画的精细控制，在动画应用中展示了其有效性和灵活性。

（2）视频编辑技术

视频编辑技术是一种用于处理和修改视频内容的方法，通常涵盖多种操作，包括剪辑、拼接、特效添加、画面调整等。近年来，随着人工智能和机器学习的发展，视频编辑技术逐渐向自动化和智能化升级，不断改善与用户之间的交互体验。

Yoon等[22]提出基于扩散模型的视频编辑框架DNI。该框架通过在指定编辑区域添加高斯噪声来减少输入视频结构对编辑区域的限制性影响，从而实现对视频中主体或对象的复杂非刚性修改。该框架的优点是能够以与模型无关的方式轻松应用于任何基于扩散的编辑系统，并增强他们执行非刚性编辑的能力。

Fan等[23]提出新型视频编辑方法Videoshop，利用噪声外推扩散反演技术来实现对视频的局部语义编辑。该方法通过编码、噪声外推反演、扩散和重缩放解码等步骤，实现了对输入视频的编辑，并能根据编辑后的第一帧引导视频的编辑过程。该方法表现出能够制作更高质量视频的编辑能力。

Singer等[24]提出一种新的视频编辑技术，通过结合文本到图像的模型和图像编辑适配器，实现了无需监督数据的视频编辑。研究者们设计了一种因子化扩散蒸馏（Factorized Diffusion Distillation, FDD）方法，通过冻结适配器并使用低秩适配（LoRA）权重对文本到图像的主干网络进行微调，以改善视频编辑质量。

Rao等[25]提出一种视频去模糊方法，利用小波感知动态变换器（Wavelet⁃Aware Dynamic Transformer）和扩散模型来提高去模糊效果。研究者们首先使用小波感知动态变换器提取高质量的特征，然后通过扩散模型生成先验特征。通过三个阶段的训练策略，该方法能够生成无伪影且高度真实的去模糊视频。

Deng等[26]提出交互式拖拽风格视频编辑方法DragVideo。该方法利用视频扩散模型和LoRA技术，允许用户通过拖拽操作来编辑视频中的对象。用户可定义关键点和目标点，并通过优化过程来实现预期的编辑效果。与现有方法相比，DragVideo展示出在视频编辑中的有效性和操作简单易上手的优势。

Wu等[27]提出DragAnything方法，通过使用实体表示来实现对视频中任意对象的运动控制。研究者们提出了一种基于轨迹的视频生成任务，该任务要求模型根据给定运动轨迹合成视频。DragAnything通过引入实体表示和2D高斯表示，提高了运动控制的准确性和视频质量。该方法还支持对前景和背景的灵活控制，甚至可实现对云层和星空等复杂背景元素的控制。

Wang等[28]提出视频外延方法MOTIA（Mastering Video Outpainting Through Input⁃Specific Adaptation），通过特定输入适应来优化视频外延任务的性能。MOTIA利用了预训练的文本到图像（T2I）模型Stable Diffusion，结合视频编辑技术，将2D卷积转换为伪3D卷积，又将2D组归一化转换为3D组归一化，以处理视频潜在特征。此外，MOTIA还整合了最初用于图像修复的ControlNet网络，以处理额外的遮罩输入，并利用其提取有效信息，实现更可控的去噪。该方法不仅增加了视频的空间维度，也确保了新扩展区域与已知区域之间的连续性及和谐性。

（3）声画同步技术

随着AIGC技术的发展，音频和视频的无缝整合成为电影制作中的一项重要突破。这一领域的创新聚焦于如何使用AI技术来协调和同步音频与视频内容，创造出更加沉浸式和引人入胜的观影体验。

Zhang等[29]提出ASVA（Audio⁃Synchronized Visual Animation），旨在通过音频信号来控制视频内容的动态效果，实现音画同步。该技术的核心在于生成与音频同步的视频序列，具体而言，即给定一段音频和一张图片，生成一系列视频帧，这些帧不仅要在视觉上保持高质量，还要在语义上与原始图片和音频保持一致，同时展现出时间上的连贯性和自然的对象运动。该技术还可使模型捕捉音频的细微变化，从而实现对视频动态的精确控制。此外，该技术通过首帧空间注意力和时序卷积机制，在生成动画的同时保持了与输入图像的高度一致性，这一特性对电影制作中保持场景连续性至关重要。

Pascual等[30]提出一个V2A生成模型MaskVAT，其将全频带高质量的通用音频编解码器与序列到序列掩蔽生成模型互连。这种组合允许对高音频质量、语义匹配和时间同步性进行同时建模。通过将高质量的编解码器与适当的预训练视听功能和序列到序列并行结构相结合，该模型在视听同步上有较好的表现效果，有望达到一些最新非编解码器生成音频模型的技术水平。

Goncalves等[31]提出PEAVS（Perceptual Evaluation of Audio⁃Visual Synchrony），用于评估视听同步性。该方法基于观众意见评分，通过分析视听内容不同的失真类型和级别，并与人类评估结果进行比较，以验证其有效性。PEAVS在大多数情况下与人类判断一致，但若在片段混乱的初期阶段，其性能不如人类评估。此外，PEAVS在检测视听偏移方面表现出更好的效果。

AI驱动的视频生成与编辑技术正深刻改变电影制作行业。从视频生成到编辑再到声画同步，这些技术大大提高了制作效率，同时为创作者提供了前所未有的创意可能性。在前期创作阶段，人工智能辅助编剧系统可根据创意提示生成初步剧本，为编剧提供灵感。预演工具能快速生成粗略的场景动画，帮助导演构思镜头。在后期制作环节，AI驱动的视频编辑软件可自动完成粗剪，为剪辑师节省大量时间。智能调色系统能一键实现色彩风格化，提升视觉美感。基于深度学习的视频修复技术可去除画面噪点、修复老旧影像。而视频生成AI甚至可创造出全新的镜头和特效，进一步拓展创作可能性。

3.3 3D生成与编辑

3D生成与编辑技术是现代电影制作的重要组成部分，它不仅增强了影片的视觉表现力，也大幅提升了制作效率和质量。当前，先进的3D生成和编辑技术能够实时处理复杂的几何形态和场景，为电影创制工作者提供了更大的制作空间和技术支持。

（1）虚拟人生成技术

虚拟人生成是3D生成技术的重要应用方向之一，其目的是通过先进算法实现高度逼真的角色建模和动作生成。该技术有望替代传统手工建模，自动生成复杂的角色外形和动作，大幅减少动画师的工作量，提升制作效率。此外，虚拟人生成技术还为游戏、电影和虚拟人类的交互提供了新的可能性，使虚拟角色不仅是视觉上的呈现，更能在情感表达和交互方面具有更高的真实感。

Zhuo等[32]提出VividDreamer，运用了不变评分蒸馏（ISD）方法。该方法旨在解决传统分数蒸馏采样（Score Distillation Sampling, SDS）方法中过饱和与过平滑问题。通过将SDS的重建项替换为不变评分项，VividDreamer能够平衡分类器自由引导和重建的矛盾，实现更高保真的3D对象生成。

Moon等[33]提出ExAvatar，结合了SMPL⁃X网格模型和3D高斯分布，能够从单目视频生成带有面部表情和手部动作的全身3D角色。通过在面部表情空间中进行驱动，该方法显著减少了在生成新面部表情时的伪影问题。

Liu等[34]提出TexDreamer方法，旨在解决基于语义UV图生成高保真3D人类纹理的挑战。尽管现有的多视图渲染监督文本到图像（T2I）模型在生成方面取得了一定进展，但仍面临生成速度、文本一致性和纹理质量等问题。TexDreamer通过高效的纹理适应微调策略，将大型T2I模型适配到语义UV结构，同时保持其原有泛化能力。

Zhang等[35]提出Motion Mamba方法，旨在生成长序列且高效的人类动作。该方法利用状态空间模型（SSMs），通过设计层次化的时序Mamba模块处理时序数据，并通过双向空间Mamba模块增强运动帧之间的连贯性。该方法在生成质量和速度上实现显著提升。

Ren等[36]提出CrossDiff方法，结合了文本描述与运动生成，通过共享的Transformer网络集成3D和2D信息，将运动噪声统一至单一特征空间，从而实现了跨维度的特征解码。该方法的主要优点在于其交叉扩散机制，能在训练过程中将2D或3D噪声逆转为利落的运动，这一能力有效地捕捉到了复杂的人体运动细节。因此，CrossDiff在文本到运动基准测试中表现出色，展示了生成更真实运动序列的能力。

He等[37]提出EmoTalk3D方法，通过“Speech⁃to⁃Geometry⁃to⁃ Appearance”框架生成情感可控的3D角色。该方法先从音频特征预测出精确的3D几何序列，随后通过4D高斯分布生成3D角色外观，实现了更高质量的口型同步和渲染效果，特别是在动态面部细节（如皱纹和微表情）的捕捉方面表现出色。

（2）场景生成技术

3D场景生成技术在电影制作中扮演了重要角色，电影创制工作者不再受限于物理场景的构建，而可自由设计和调整影片的虚拟环境。这不仅提高了创作的灵活性，还增强了视觉效果的丰富性。高质量的场景建模要求对拓扑结构和几何细节有良好的捕捉能力，近期的研究提供了新的解决方案，推动了这一领域技术的进步。

Zhai等[38]提出EchoScene方法，利用场景图扩散模型生成3D室内场景。通过双分支扩散模型，EchoScene可动态适应场景图，解决现有方法处理场景图时面临的节点数目和边组合多样性问题。该方法通过信息回声机制实现了形状和布局分支间的协作，提高了场景生成的可控性和一致性，并在实验中表现出高质量的生成结果，超过了现有的生成方法。

Liu等[39]提出VCD⁃Texture方法，通过基于方差对齐的3D⁃2D协同去噪框架，统一了2D和3D的潜特征学习。通过整合多视角的2D潜特征并进行光栅化处理，该方法有效提升了纹理合成的精度。此外，该方法还提出了修复冲突区域的修补精化过程，从而实现高质量的3D场景纹理生成。

Han等[40]提出VFusion3D方法，用于从视频扩散模型中学习大规模3D生成模型。该方法通过解锁视频扩散模型的多视角生成能力，生成了大规模的合成多视角数据集，从而训练出一个前馈式的3D生成模型。VFusion3D能够从单个图像快速生成3D资产，并在性能上优于现有的最先进方法，实现了更加精细的场景建模。

Öcal等[41]提出SceneTeller，一种基于文本的3D房间设计方法。该方法利用自然语言描述对象在房间中的摆放，生成相应的高质量3D场景。该方法通过使用上下文学习、CAD模型检索和基于3D高斯点的风格化，构建了一个便于新手用户使用的完整流程，展示了生成3D场景的最新成果。

（3）3D编辑技术

3D编辑技术是近年来计算机图形学和电影制作领域的重要方向。这些技术不仅能够对3D模型进行细节优化，还能通过几何与纹理的调整实现高精度的模型定制。在电影制作中，3D编辑技术的快速发展为复杂场景的生成、角色的精细化雕刻以及特效制作带来了革命性变化。相比传统手动编辑流程，现阶段常用的3D编辑工具借助先进的算法和机器学习技术，可自动化地完成模型和场景的生成与调整，为电影制作团队节省了大量时间与成本，并提升了视觉效果的精确度和一致性。

Ye等[42]提出Gaussian Grouping方法，通过扩展高斯分组技术实现3D场景中物体的分割与编辑。该方法引入了一种紧凑的身份编码，使高斯可以根据物体实例或场景中的内容进行分组，并结合SAM模型的2D掩码预测进行监督，能够高效实现多种3D场景编辑操作，如物体移除、填充、着色和风格迁移。

Xu等[43]进一步优化了纹理编辑技术，提出Texture⁃GS方法。该方法通过解耦3D高斯散射中的几何和纹理信息，解决了之前方法中纹理编辑受限的问题。通过引入纹理映射模块，Texture⁃GS实现了高效的外观编辑，能够在消费级设备上实时渲染高保真图像，并在DTU数据集上的实验中表现出色。

Khalid等[44]提出基于单目视频的3D场景生成和编辑方法3DEgo，旨在通过文本提示直接从单目视频中生成逼真的3D场景。3DEgo通过消除COLMAP（COLLISION⁃MAPping）的依赖，并在视频帧编辑前融入噪声混合模块，从而简化多阶段的编辑流程。最终，通过3D高斯点云进行场景重建，展现了极高的编辑精度和效率。

Chen等[45]提出多视角一致性3D编辑方法DGE（Direct Gaussian Editor），通过修改高质量的2D编辑器，如InstructPix2Pix，确保编辑的一致性。在给定一组多视角一致的图像编辑序列后，直接优化基于3D高斯点云的场景表示，生成高质量3D编辑效果，相较于逐步更新的3D表示方法，DGE更高效、更精确。

Karim等[46]提出零样本文本驱动的3D编辑方法Free⁃Editor，无需重新训练模型，通过单视图编辑实现3D场景的修改。Free⁃Editor通过编辑Transformer确保视图内一致性，同时通过自视图和跨视图注意力机制传递风格，大幅降低了编辑时间和资源消耗。

在现代电影创制中，3D生成与编辑技术的融合创新应用为创作者提供了前所未有的可能性，不仅提升了影片视觉效果，还推动了叙事方式和表现手法的变革。通过利用自然语言描述和智能生成算法，创作者不仅能更高效地实现设计创意，还能在动态调整和多维度展示中持续获得灵感，从而拓宽叙事边界。此外，3D编辑技术的进步使后期制作变得更加精准。创作者能在更短时间内完成复杂场景的修改和特效应用，从而聚焦艺术创作本身。这种快速迭代的能力，不仅提升了制作效率，还为观众呈现更具沉浸感的视觉体验。

4总结与展望

ECCV 2024大会展示的前沿技术，进一步验证了AIGC在实际电影制作中的巨大潜力。AIGC技术在电影创制中展现出的多重应用价值，将为电影行业带来前所未有的创新与变革。通过GAN、VAE、扩散模型等技术，AIGC实现了高质量图像生成、复杂视频合成、3D建模与渲染等功能，使电影制作更加高效、灵活，制作周期与成本得以显著降低。与此同时，AIGC还为电影创作者提供了丰富的创意表达工具，进而轻松实现虚拟角色塑造、特效场景制作、剧情与对白生成等任务，为电影内容的多样化与创新性提供了强有力的技术支持。

AIGC技术作为新质生产力的核心关键引擎，将进一步重塑电影创制流程，但同时也面临诸多挑战。随着AIGC生成内容在电影中应用的日益普及，技术可控性、版权保护、创作者权益等问题也将变得更加突出。如何确保AIGC生成的角色、场景与内容在版权上得到合理保护，如何明确创作者与技术提供方之间的权益归属，以及如何使电影创制过程更规范、透明、可控等，都将是亟待解决的关键问题。只有在技术创新与伦理规范的共同推动下，AIGC才能更好地赋能电影创制，助力中国电影高质量发展。

参考文献

（向下滑动阅读）

[1] European Conference on Computer Vision (ECCV)[EB/OL]. [2024⁃09⁃30]. https://papercopilot.com/statistics/eccv-statistics/.

[2] Zhang J. Application Analysis of Special Effects Technology in Film and Television Post⁃Production[C]//Frontier Computing: Proceedings of FC 2020. Springer Singapore, 2021: 1007⁃1013.

[3] Xue S, Liu Z, Chen F, et al. Accelerating Diffusion Sampling with Optimized Time Steps[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 8292⁃8301.

[4] Sun Y, Liu Y, Tang Y, et al. AnyControl: Create Your Artwork with Versatile Control on Text⁃to⁃Image Generation[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2406.18958.

[5] Hong Y, Duan Y, Zhang B, et al. ComFusion: Personalized Subject Generation in Multiple Specific Scenes From Single Image[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2402.11849.

[6] Kim G, Kim H, Seo H, et al. BeyondScene: Higher⁃Resolution Human⁃Centric Scene Generation With Pretrained Diffusion[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2404.04544.

[7] Koo G, Yoon S, Hong J W, et al. FlexiEdit: Frequency⁃Aware Latent Refinement for Enhanced Non⁃Rigid Editing[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2407.17850.

[8] Cui Y, Zhao X, Zhang G, et al. StableDrag: Stable Dragging for Point⁃based Image Editing[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2403.04437.

[9] Jin Q, Chen X, Jin M, et al. Toward Tiny and High⁃quality Facial Makeup with Data Amplify Learning[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2403.15033.

[10] Li G, Shu Z, Ji J, et al. Data Overfitting for On⁃Device Super⁃Resolution with Dynamic Algorithm and Compiler Co⁃Design[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2407.02813.

[11] Li W, Wan P, Wang P, et al. BeNeRF: Neural Radiance Fields from a Single Blurry Image and Event Stream[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2407.02174.

[12] Sun S, Ren W, Gao X, et al. Restoring Images in Adverse Weather Conditions via Histogram Transformer[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2407.10172.

[13] Fu Z, Guo L, Wang C, et al. Temporal As a Plugin: Unsupervised Video Denoising with Pre⁃Trained Image Denoisers[EB/OL]. [2024⁃10⁃22].https://arxiv.org/abs/2409.11256.

[14] Zhuang J, Zeng Y, Liu W, et al. A Task is Worth One Word: Learning with Task Prompts for High⁃quality Versatile Image Inpainting[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2312.03594.

[15] Guo Y, Yang C, Rao A, et al. Sparsectrl: Adding Sparse Controls to Text⁃to⁃video Diffusion Models[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2311.16933.

[16] Ren Y, Zhou Y, Yang J, et al. Customize⁃a⁃video: One⁃shot Motion Customization of Text⁃to⁃video Diffusion Models[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2402.14780.

[17] Liu S, Ren Z, Gupta S, et al. PhysGen: Rigid⁃Body Physics⁃Grounded Image⁃to⁃Video Generation[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2409.18964.

[18] Liang J, Fan Y, Zhang K, et al. Movideo: Motion⁃aware Video Generation with Diffusion Models[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2311.11325.

[19] Wu T, Si C, Jiang Y, et al. Freeinit: Bridging Initialization Gap in Video Diffusion Models[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2312.07537.

[20] Li X, Wang L. Zeroi2v: Zero⁃cost Adaptation of Pre⁃trained Transformers from Image to Video[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2310.01324.

[21] Niu M, Cun X, Wang X, et al. MOFA⁃Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image⁃to⁃Video Diffusion Model[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2405.20222.

[22] Yoon S, Koo G, Hong J W, et al. DNI: Dilutional Noise Initialization for Diffusion Video Editing[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2409.13037.

[23] Fan X, Bhattad A, Krishna R. Videoshop: Localized Semantic Video Editing with Noise⁃Extrapolated Diffusion Inversion[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2403.14617.

[24] Singer U, Zohar A, Kirstain Y, et al. Video Editing via Factorized Diffusion Distillation[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2403.09334.

[25] Rao C, Li G, Lan Z, et al. Rethinking Video Deblurring with Wavelet⁃Aware Dynamic Transformer and Diffusion Model[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2408.13459.

[26] Deng Y, Wang R, Zhang Y, et al. Dragvideo: Interactive Drag⁃style Video Editing[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2312.02216.

[27] Wu W, Li Z, Gu Y, et al. DragAnything: Motion Control for Anything using Entity Representation[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2403.07420.

[28] Wang F Y, Wu X, Huang Z, et al. Be⁃Your⁃Outpainter: Mastering Video Outpainting through Input⁃Specific Adaptation[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2403.13745.

[29] Zhang L, Mo S, Zhang Y, et al. Audio⁃Synchronized Visual Animation[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2403.05659.

[30] Pascual S, Yeh C, Tsiamas I, et al. Masked Generative Video⁃to⁃Audio Transformers with Enhanced Synchronicity[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2407.10387.

[31] Goncalves L, Mathur P, Lavania C, et al. Perceptual Evaluation of Audio⁃visual Synchrony Grounded in Viewers' Opinion Scores[EB/OL]. [2024⁃10⁃22].https://eccv.ecva.net/virtual/2024/poster/1398.

[32] Zhuo W, Ma F, Fan H, et al. VividDreamer: Invariant Score Distillation for Hyper⁃Realistic Text⁃to⁃3D Generation[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2407.09822.

[33] Moon G, Shiratori T, Saito S. Expressive Whole⁃Body 3D Gaussian Avatar[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2407.21686.

[34] Liu Y, Zhu J, Tang J, et al. TexDreamer: Towards Zero⁃Shot High⁃Fidelity 3D Human Texture Generation[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2403.12906.

[35] Zhang Z, Liu A, Reid I, et al. Motion Mamba: Efficient and Long Sequence Motion Generation[EB/OL]. [2024⁃10⁃11].https://eccv.ecva.net/virtual/2024/poster/655.

[36] Ren Z, Huang S, Li X. Realistic Human Motion Generation with Cross⁃Diffusion Models[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2312.10993.

[37] He Q, Ji X, Gong Y, et al. EmoTalk3D: High⁃Fidelity Free⁃View Synthesis of Emotional 3D Talking Head[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2408.00297.

[38] Zhai G, Örnek E P, Chen D Z, et al. EchoScene: Indoor Scene Generation via Information Echo over Scene Graph Diffusion[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2405.00915.

[39] Liu S, Yu C, Cao C, et al. VCD⁃Texture: Variance Alignment based 3D⁃2D Co⁃Denoising for Text⁃Guided Texturing[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2407.04461.

[40] Han J, Kokkinos F, Torr P. VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2403.12034.

[41] Öcal B M, Tatarchenko M, Karaoglu S, et al. SceneTeller: Language⁃to⁃3D Scene Generation[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2407.20727.

[42] Ye M, Danelljan M, Yu F, et al. Gaussian Grouping: Segment and Edit Anything in 3D Scenes[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2312.00732.

[43] Xu T X, Hu W, Lai Y K, et al. Texture⁃GS: Disentangle the Geometry and Texture for 3D Gaussian Splatting Editing[EB/OL]. [2024⁃10⁃11]. https://eccv.ecva.net/virtual/2024/poster/581.

[44] Khalid U, Iqbal H, Farooq A, et al. 3DEgo: 3D Editing on the Go![EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2407.10102.

[45] Chen M, Laina I, Vedaldi A. Dge: Direct Gaussian 3d Editing by Consistent Multi⁃view Editing[EB/OL]. [2024⁃10⁃11]. https://eccv.ecva.net/virtual/2024/poster/2412.

[46] Karim N, Khalid U, Iqbal H, et al. Free⁃Editor: Zero⁃shot Text⁃driven 3D Scene Editing[EB/OL]. [2024⁃10⁃22]. https://arxiv.org/abs/2312.13663.

【本文项目信息】上海市人才发展资金资助项目（2021016）。

主管单位：国家电影局

主办单位：电影技术质量检测所

标准国际刊号：ISSN 1673-3215

国内统一刊号：CN 11-5336/TB

投稿系统：ampt.crifst.ac.cn

官方网站：www.crifst.ac.cn

期刊发行：010-63245081

《现代电影技术》｜黄东晋等：人工智能生成内容在电影创制中的革新：ECCV 2024 AIGC技术综述

热搜

热门跟贴