《现代电影技术》｜刘绍龙等：生成式AI驱动的电影技术创新——SIGGRAPH 2024 AIGC相关研究综述|刘绍龙|现代电影技术|鲁棒性

本文刊发于《现代电影技术》2024年第10期

专家点评

《生成式AI驱动的电影技术创新——SIGGRAPH 2024 AIGC相关研究综述》通过总结SIGGRAPH 2024会议的最新研究成果，从泛化性、稳定性、可控性三个核心维度分析了当下生成式AI的研究方向与技术特点，探讨了其在虚拟角色动作生成、群体动画模拟、三维资产生成等方面的创新应用，突显了人工智能生成内容（AIGC）技术在推动电影制作流程革新中的重要潜力。作者认为AI生成技术将成为提升电影制作效率、丰富影像表现力的关键工具，但同时也面临生成质量仍不稳定、计算资源需求过高等现实问题。文章为电影技术的未来发展提供了富有前瞻性的洞见，并对AIGC如何提升电影制作中的创意表达与生产效率展开了深入探讨。该综述引发更深层次的思考在于，AIGC技术的广泛应用将对电影行业的创作模式产生何种影响？一方面，生成式AI的高效生成能力能够大幅减少传统电影制作中的手动劳动，赋予创作者更多的时间和空间去探索新的艺术表达方式；另一方面，AI技术的介入是否会削弱电影创作中的人文关怀和艺术独特性。这一点值得电影行业从业者和技术开发者共同思考和探讨。总之，这一综述对于电影行业的从业者与技术研究人员具有重要的参考价值，有助于推动生成式AI在影视领域的进一步应用和发展。

——王岚君

天津大学新媒体与传播学院研究员、博士生导师

作者简介

刘绍龙

北京师范大学艺术与传媒学院博士后，主要研究方向：图形学、虚拟现实、计算机动画、数字艺术。

北京师范大学艺术与传媒学院硕士研究生在读，主要研究方向：人工智能艺术、虚拟现实与混合现实。

段佳鑫

摘要

SIGGRAPH会议长期以来一直是电影产业与先进技术融合的关键推动力。本文聚焦SIGGRAPH 2024所展示的生成式人工智能（Generative AI）技术在影像内容创作中的应用，系统梳理了计算机图形学（CG）与人工智能交叉领域的最新研究进展，并从泛化性、稳定性和可控性三个核心维度对生成式AI技术的现状进行深入分析，探讨了其在电影制作中的创新应用及其面临的挑战。此外，本文对生成式AI在未来电影技术发展中的角色进行了深度审视与前瞻预测，旨在为读者提供一个从技术迭代的视角理解生成式AI技术的适用性及其对未来电影产业的影响。

关键词

图形学；人工智能；SIGGRAPH；AI内容生成；电影技术

国际计算机图形与交互技术会议（SIGGRAPH）是计算机图形学（CG）领域的顶级会议之一，汇集了来自世界各地的研究人员、实践者和艺术家，会议展示了计算机图形图像技术、交互技术、虚拟现实和增强现实、数字艺术、动画、人工智能(AI)等领域的最新进展。2024年会议延续其作为创新与前沿研究中心的传统，共接收252篇科研成果，较去年增长36%，相关研究的火热程度和研究者参与度逐年增长。这些成果中包含大量生成式AI（Generative AI）等新兴技术，探讨计算机图形学（CG）、机器视觉与人工智能的交叉领域，突显计算机视觉与计算机图形学之间日益扩展的重叠部分。正如组委会所提到的，SIGGRAPH 展示的论文主题正在不断演变，AI的进展扩大了计算机视觉（CV）和计算机图形学间共享主题的范围，尤其是基于生成式 AI 的应用。

近年来，生成式AI正迅速成为电影技术领域的重要推动力。其核心优势在于高质量新颖内容的低成本生成，涵盖不同维度的数字资产生成，从而受到电影制作多个环节的广泛关注，并被作为辅助工具引入影视内容生产中。本次会议恰恰展示了成熟的计算机图形学研究对于生成式影像内容的新应用探索。基于近期的研究，扩散模型（Diffusion Model）、GPT大模型等生成模型框架已得到深入探讨和广泛推广，相关研究成果正从对模型架构的理论性探索转向具体生产应用，尤其关注性能优化、稳定可控及交互形式的研发。这一转向预示着技术迭代进入了优化阶段，进一步推动生成模型在多领域，尤其是影像内容创作相关领域实际应用中的深化。为了更好地总结本次会议中生成式AI技术、计算机图形学技术以及电影技术应用的融合成果，本文从泛化性、稳定性和可控性三个方面进行描述和展望，以便读者从全局视角判断生成式AI技术在电影领域的适用性和发展前景，进而激发新的研究思路。

1跨模态泛化性与多任务扩展

生成式AI技术的泛化能力可解释为其在不同领域、不同任务和不同数据类型上都能有效应用并保持优异性能。例如，扩散模型框架在图像、视频生成等不同生成任务中展现出一致的适用性与鲁棒性。在本次会议中，这种跨任务适应能力已扩展到动作、头像、表情、群体动画（Crowd Animation）、特殊图像等内容生成领域，不仅涵盖了电影影像的表层特征，还深入到与视觉效果和感知体验密切相关的垂直领域。技术发展正与电影制作需求步调一致，这体现了生成式AI技术在电影制作中的应用正从广度向深度发展。

1.1 虚拟角色的动作生成

虚拟角色的动作生成与编辑一直是计算机图形学经典话题，与传统基于自回归方式预测下一个动作信号的方法，以及文生图、图生图等应用场景不同，生成式AI方法将虚拟角色的骨骼信息或面部关键点作为学习对象，利用自然语言或引导信息，通过尝试引入扩散模型框架进行内容生成、风格化等处理。Sun等[1]提出从局部到全局的文本生成人物运动的扩散模型框架，该框架首先采用大语言模型将人物全局运动描述分解为身体各部位的描述，如胳膊叉腰、腿部伸直等，然后由部分肢体运动编码器对局部语义进行对齐，这样既能保证人体局部运动的准确性，又能保证整体动作的连贯性。Chen等[2]提出一种运动扩散概率模型用以生成高质量和多样化的角色动画，其核心基于条件自回归运动扩散模型（Conditional Autoregressive Motion Diffusion Model,CAMDM），包括单独的条件标记化、对过去运动的无分类器指导以及启发式未来轨迹扩展。该方法输入历史动作，经由简单用户控制即可生成一系列不同动作，展现出良好的实时性与交互性。Zhang等[3]提出一个能够生成长时间运动序列的方法，将运动的时间轴与扩散过程的时间轴融合，使用 U⁃Net 架构以自回归方式合成内容，从而形成任意时长的运动序列，这对虚拟角色的运动连续一致性和运动过程中的引导控制有很大帮助。Cohan等[4]研究了扩散模型在生成由关键帧引导的不同人体运动的潜力，提出一个简单且统一的中间运动扩散模型，以适应时间稀疏的关键帧、部分姿势规范及文本提示。该方法符合以关键帧为核心的传统三维动画制作方法，将关键帧繁琐的手动调节调整为自然语言交互的文本提示，对电影动画和后期制作人员更友好，提高了制作效率。

1.2 群体动画的模拟生成

群体动画模拟是后期CG特效、虚拟摄制、游戏制作等流程的主要部分，是模拟展示大型场景的必要手段，未来将应用于虚拟现实（VR）影像、虚拟摄制等前沿影像制作工作流程中。前期工作主要为通过物理模拟等传统图像学的计算分析方法，但需要美术团队和工程团队进行视觉环境创建、智能角色设计、复杂系统构建等工作支持，仍属劳动密集型制作环节。为加速群体动画内容的创建，Ji等[5]提出一种可根据与环境设置兼容的文本进行驱动的人群动画行为自动生成方法，该方法引入扩散模型，将环境地图和描述多组代理行为的通用脚本作为输入，再利用大语言模型将脚本规范化为结构化句子，后将每个结构化句子输入至潜在扩散模型，以预测用于导航代理组的速度场，从而从高级文本描述生成多智能体导航场景。

长远而言，未来群体动画的模拟将出现以生成式模型为框架的实时自动生成方法，单一智能体（Agent）的行为和群体行为将会集成在一个框架中，越来越多的可交互编辑方法将出现在未来研究中，以加速虚拟摄制、动画和游戏的生产。

1.3 三维资产重建与生成

3D头像制作领域，目前的关注热点包括基于多幅照片的3D肖像重建与基于文本驱动的3D头像生成。该领域目前面对的挑战有优化生成网格模型过饱和、过度平滑等问题。在重建方法中，Wu等[6]提出一种基于神经渲染的3D肖像生成器。该方法采用新颖的金字塔三网格3D表示（Pyramid Tri⁃grid 3D Representation）以减轻“网格状”伪影，并通过学习360°肖像分布作为方法框架的稳健先验。此外，该方法通过扩散模型的指导生成高质量、视图一致、逼真且规范的3D肖像。与该方法类似的还有Liu等[7]提出的可直接通过文本引导生成特定几何形状和纹理的数字资产的HeadArtist框架。具体而言，该方法将生成过程分解为几何生成和纹理生成，其分别引入DMTet网格[8]和 Magic3D[9]用于表达几何信息和构建纹理空间，通过基于标记点引导的ControlNet网络构造自评分蒸馏器（Self Score Distillation），并优化参数化 3D 头部模型。该方法能保持生成3D头像的多样性，同时避免过饱和与过度平滑的问题，可使3D头像数字资产形状合理、无伪影且富有更逼真的纹理，可编辑性也显著增强。此外，Jang等[10]基于StyleGAN框架提出一种三维面部卡通风格化方法，通过输入真实人物面部图像，可输出具有明显卡通风格的三维面部数据。该方法支持基于生成式对抗网络（GAN）的3D面部表情编辑，因此可在二维GAN的潜在空间中直接对3D面部进行创意构建与编辑，可应用于动画电影、数字人等人物角色制作流程，以提高生产效率。

通过语音合成带有微表情且细节丰富的三维面部动画，不仅是影视特效、三维动画制作中所需的重要技术储备，也是未来虚拟数字人突破恐怖谷（Uncanny Valley）效应的技术路径。已有基于生成式模型的能力过于依赖大规模、高质量的训练数据，且数据缺乏情感变化和性格特征多样性。Zhao等[11]提出一种具有细粒度面部表情和头部姿势的通用神经表示以及多身份4D面部扫描数据，基于上述神经表示提出可生成高质量口型同步的扩散模型，从而生成可表达文本、图像甚至音乐中微妙人类情感的面部动画。该方法的输入数据包括对话、音乐、演讲等不同音频源，也包括文本、图片等。在此方法的帮助下，数字人和生成式影像可具有更丰富的情感表达，并在情绪安抚、情感治疗等功能上迈出重要一步。

特殊图像生成是一种人工智能生成内容（AIGC）的创意应用，其指生成利用视觉错位形成的图像，比如狗的头像旋转180°后变成了树懒。在创意探索过程中，Burgert等[12]利用扩散模型提出视觉错位图像生成框架，名为“扩散错觉” （Diffusion Illusions）。该框架将图像的错觉形式转化为通过翻转、旋转或隐藏等方式产生的不同画面内容，利用特定的损失函数为生成图像提供合适的对齐信号。该方法为非线性电影带来启发，比如将该方法从图像维度提升至视频维度，用户可将该方法生成的视频画面进行旋转、叠加，从而形成新的画面内容或语义符号，最终形成非线性叙事结构。未来该类方法能够为交互式电影和电影游戏化领域理论和实践提供基础。

2生成质量稳定性与可靠性优化

在电影领域相关应用中，生成式AI的稳定性主要表现在生成内容的精确性、连贯性及高效性。当前的研究已从初步模型提出和验证逐步进入模型优化和应用阶段。研究者们在提高模型效率、生成质量、连贯性、一致性、鲁棒性、多模态生成能力，节省计算资源和训练时间等方面取得了显著进展，这也为生成式AI在电影领域的应用推广奠定了基础。

2.1 精确性优化

生成内容的精确性是指AI能够生成高质量、细节准确的内容，满足影视制作的预期标准，这是AI生成质量稳定性的重要体现。尽管基于扩散的文本到图像（T2I）模型在近期取得了重要突破，但目前方法仍难以确保生成图像与文本提示高度一致，尤其在涉及具有不同属性（例如不同形状、大小和颜色）的多个对象生成时，内容生成的完整性仍存在挑战，如提示词为“一个戴着皇冠的狮子”，其在实现智能生成狮子的同时，很难生成一个皇冠。Bao等[13]分析上述问题原因，发现其可能由于扩散模型中注意力激活分数（Attention Activation Scores）对于某些注意力有明显较低的情况，或对应于不同对象的注意力遮罩存在大量重叠。为解决该问题，该方法通过结合分离损失和增强损失两个损失函数提出了一种组合微调策略，从而实现更高的文本图像对齐成功率和更真实的图像生成效果，更好地生成多对象画面内容，允许用户通过自然语言更精确地控制画面内容。同样，Ma等[14]提出名为“Subject⁃Diffusion”的开放域个性化图形生成扩散模型，仅使用一张参考图像即可生成高保真主题驱动的图像，测试时无需微调。换言之，利用该模型可通过提示词对输入的参考图片进行修改，使其加入更多如类型、风格、场景等个性化主题。

电影影像中通常包含大量的人物角色近景或特写肖像画面，这些画面通过表情和动作细节传递信息和情感，这要求生成式人工智能在计算上述画面时具有更稳定的画面和更精确的控制。为了解决上述问题，Xie等[15]提出X⁃Portrait这一新颖的零样本（Zero Shot）学习框架，其利用图像扩散先验来实现富有表现力的头像动画，通过关于局部面部运动的引导运动注意力（Guided Motion Attention）增强对微妙面部表情的解释。该方法展示出感知质量、运动丰富性、身份一致性和领域泛化等能力，实现了对微妙、极端面部表情（例如撅嘴和单眼眨眼）和大范围头部平移、旋转的准确表达，即使在夸张的风格化角色头像生成过程中依然具有良好鲁棒性。该方法很好地解决了电影（包括动画电影）中大量正反打对话镜头的高效生成，在实现情感有效传递的同时提高了电影生产效率。

2.2 连贯性优化

生成内容的一致性与连贯性对叙事效果、角色形象、观影体验具有至关重要的影响，此前保持一致性的方法通常依赖于目标角色的多个预存图像或繁琐的人工干预过程。Avrahami等[16]提出一种全自动解决方案，该方法首先根据提供的提示词生成图像库并使用预训练的特征提取器将它们嵌入欧几里得空间中，随后对这类嵌入进行聚类并选择最合适的一类作为提取一致身份的个性化方法输入，之后使用生成的模型完成下一个图像库的生成，该图像应表现出更高一致性，同时仍然描述输入提示，并重复迭代这个过程直到收敛。该方法最大的特点是无需目标角色的任何图像作为输入，且画面一致性效果突出。基于该方法，生成的角色在各种背景画面中均能保持一致性，配合使用ControlNet模型，可基本实现虚拟角色的生成、表演与舞台调度。Guo等[17]提出一个轻量化基于文本烟道的图生视频解决方案I2V⁃Adapter。该方法保留了预训练模型的先验知识，使模型显著减少新任务训练时间，有助于模型微调，提高了生成视频的泛化能力。此外，其通过引入一种新颖的帧相似性先验（Frame Similarity Prior）来平衡生成视频的稳定性和运动幅度，同时增强了模型可控性和生成视频的多样性。从实验结果可以看出，该方法生成的视频具有较强连贯性，保证了角色等图像身份方面的一致性，在生成具有运动范围视频时效果更好且扭曲误差低，使其能够在确保足够运动精度的前提下生成带有更多动态效果的视频。上述特征充分说明该方法在画面质量和生产效率上得到了进化。在可见的未来，该方法有望结合帧插值和空间超分辨率模块生成更长持续时间、更稳定连贯、更高分辨率的视频。Zhao等[18]对3D头像生成中提高保真度和效率发起挑战，他们提出了能够融合多个输入，且无需额外优化的重建框架。该方法引入了可动画3D GAN先验以及创新的神经纹理编码器，旨在更好地保留重建头像的细节，恢复被遮挡的面部区域以及准确地对动态特征进行建模，这对电影制作过程中保持头像的身份一致性有很大帮助。

2.3 高效性优化

生成内容的高效性涉及生成内容的速度和计算资源的使用效率。稳定的生成式AI不仅在生成高质量内容时表现稳定，还能高效地完成生成任务，优化计算资源的使用，提高整体制作效率。Gu等[19]提出一种引导滤波器（Filter⁃Guided Diffusion）框架，通过根据示例图像的结构调节图像扩散，从而向生成图像的扩散模型添加高质量引导。该框架所实现的速度和多样性，使其能在比现有零样本方法更短的时间内生成更高质量的结果。扩散模型实质存在一个产生噪声和去除噪声的过程，针对上述过程的优化，Huang等[20]讨论了相关噪声和训练图像之间的相关性对生成扩散模型的影响，并将具有时变噪声的确定性扩散过程引入扩散模型框架中，该方法生成的图像更自然，细节更丰富，伪影更少。

3生成内容可控性与创作自由度提升

在AI辅助电影生产的过程中，生成式AI技术的可控性直接影响了生产者对内容的把控以及艺术家创作的自由度，其包括对画面内容的控制、风格形式的控制、镜头语言的控制等。在本次会议中，多个研究者从创作者角度探索了针对数字资产细节的人机交互控制方法，提升了AI辅助电影创作的能力以及电影生产的人机协同效率，同时也能保留艺术家对艺术表达的独特性和个性化特征。

3.1 视频生成的可控性

利用生成式AI生成视频技术直接影响影视行业生产流程、成本资源和观众体验等方面。随着Sora、可灵、Luma等基于Diffusion Transformers（DiT）框架的文生视频大模型出现，画面质量、内容长度均得到大幅提升，利用AI创作影像将会变成主流创作方式。然而作为生产力工具，其还存在可控性不足的问题，比如影像画面的运动通常包含了画面中对象的运动和摄影机运动，且这两种运动通常会同时出现，由于先前的方法通常缺乏对影像对象和摄影机运动同时进行控制，导致专业影像制作者的创作可操作性大大降低，为此Yang等[21]提出了Direct⁃a⁃Video系统，其通过解耦算法控制物体和相机运动，从而允许用户像导演一样在生成影像过程中独立指定多个对象的运动并控制摄影机的平移和缩放运动，显著提升了对生成画面的可控性。针对影像中物体运动的控制，团队提出使用模型固有先验的空间交叉注意力调制实现；针对相机运动，团队引入了新的时间交叉注意层，以解释定量的相机运动参数，该方法优势在于可通过自我监督和轻量级训练方法学习相机运动。相反，在推理过程中，可采用免训练方法来控制对象运动，避免了对运动注释和视频基础数据集的密集收集需要。此外，该方法在精确控制方面也有诸多优势，比如可同时对相机的平移和缩放进行控制，增加了相机可调参数，以及更容易控制多个对象的运动，能避免语义的混合和缺失。未来，在该方法基础上可延伸出基于草图的相机精确运动调节，使通过故事板直接生产影像的可能性进一步增加。

基于交互方式进行可控性内容修改的相关研究大多针对图像展开，例如拖动修改图像生成技术[22]和特定区域修改技术[23]，但生成视频的交互内容修改技术仍存在技术空缺。在本次会议中Shi等[24]提出一种用于一致且可控的文本引导图像到视频生成 (I2V) 的新颖框架，将困难的图像到视频生成任务分解为两个阶段：第一阶段训练一个基于扩散的运动场预测器，重点是推导合理的运动；第二阶段则完成视频渲染，为有效扩大时间感受野，该方法提出通过运动引导时间注意力。该框架能避免具有较大视点变化的相机运动、非刚性运动情况下的失帧，使视频生成功能更为准确且鲁棒。最值得讨论的是该方法支持用户使用稀疏轨迹和运动画笔更精确地控制影像的运动轨迹和动画区域，其运动笔刷（Motion Brush）功能可控制影像中的区域运动，例如让影像中角色头发更加飘逸且整体画面没有违和感，而运动拖拽功能（Motion Drag）则可通过绘制路径精确控制画面中的对象运动，例如可让影像中的猫根据绘制路径进行转头。对于电影技术而言，该方法尝试使用可交互方式对影像进行控制，尽管仍存在复杂运动或多对象交互情况下失帧的现象，但在生成影像可控性探索方面迈出了一大步。

在影像制作过程中，画面构图对于增强叙事、引导注意力、体现影片风格等方面起着积极作用。在引导图像生成过程中，用户常常使用景深信息约束画面构图，这一过程需要用户提供深度图作为输入，然而提供这种深度信息对于用户而言本身就是一个挑战。Bhat等[25]为此提出一个基于深度的快速引导图像生成方法LooseControl，并提供两种交互式编辑模式，即场景边界控制（Scene Boundary Control）和三维盒控制（3D Box Control）。在该创意生成和编辑的新模式下，用户能够以更有效和渐进的方式探索构图设计空间。

3.2 图像生成的可控性

针对静态图像中的对象生成，除了控制画面整体风格，另一类方法是控制形象的视觉外观。Alaluf等[26]提出基于外观迁移的视觉外观控制，将概念的视觉外观从一个图像转移到另一个图像中存在的概念，例如将第一张图中斑马的外观转移到第二张图的长颈鹿图像上。该方法首先需要输入外观图像和结构图像，如斑马和长颈鹿，然后将图像反转到文生图预训练扩散模型的潜在空间中。之后在去噪过程的每个时间步骤，通过将结构图像对应的查询与外观图像的键值相乘以计算修改后的自注意力图。该方法的优势在于零样本学习，不需要优化或训练，适用于科幻电影形象概念设计，尤其适合推理构建物种融合等硬科幻世界观。若该方法能扩展到时间维度，在生成影像中直接融合或迁移外观，让科幻形象的运动遵循物理规律，可使塑造的角色运动更真实。

影像中的照明和材质是关键艺术元素，其不仅有助于观众看清画面内容，更是创造氛围、传达情感、塑造角色形象以及推动故事情节发展的重要工具，因此控制生成画面中的光线效果也是AI影像艺术生成的重要基础。然而现有方法很难通过文本提示词来详细描述和控制光环境的参数。为解决此问题，Zeng等[27]提出基于扩散模型的图像光线控制方法。该方法首先生成临时图片并对其进行前后景分割，之后通过将目标光照传递到名为DiLightNet的细化扩散模型，通过推断前景对象的粗略形状计算出辐射度提示，重新修改和细化生成图像中的前景对象，最终重新合成与前景物体上光照一致的背景。简言之，该方法同时考虑了提示词和画面主题对象的形状，从而让合成的图像更具有物理真实感。将该方法应用于电影制作中将提升后期特效合成环节的效率，通过背景重绘来控制整个画面的灯光效果，也增强了工具的可控性。此类照明控制方法未来有望直接应用于文生视频的模型中。此外，Luo等[28]利用生成式AI对图像进行内蕴属性分解，例如反照率（Albedo）、着色（Shading）、法线（Normal）等图形学概念。该方法创新性地将内蕴属性形式化分解为利用预先训练的文生图模型的条件生成问题，并提出新颖的ControlNet架构，将不同数据源与不通过联合学习框架同类型的注释相结合，联合预测多种内蕴属性。与之类似的方法还有Zeng等[29]提出的RGB→X 扩散模型，该方法可仅指定应遵循的某些内蕴属性，来引导模型推理其余画面的合理版本。利用上述方法可对输入的图像进行重新照明和设置纹理材质，将图形学渲染的基本元素与生成式AI框架相结合，使得对图像的生成控制可以像图形学渲染逻辑一样进行处理。

3.3 三维生成的可控性

在三维数字资产方面，为提高三维内容生成的可控性，Liu等[30]将草图交互方式引入文生三维内容生成框架中，提出基于草图的多视图图像生成扩散模型，能够在生成高质量三维对象的同时允许可控的神经辐射场（NeRF）编辑。为进一步支持本地修改编辑，该方法开发了从粗到细的编辑框架：粗略阶段生成初始结果以更好地标记编辑区域，而精细阶段则通过局部渲染策略生成高质量的编辑结果，该方法在三维内容的可控生成上取得了显著提升。编辑纹理是三维内容创建流程的另一重要组成部分。Guerrero-Viu等[31]操纵（Constrastive Language⁃Image Pre⁃training，CLIP）图像嵌入来调节扩散生成从而编辑纹理内容。该方法使用简单文本提示（例如，“老化木材”到“新木材”）定义编辑方向，并使用纹理先验将其映射到CLIP图像嵌入空间，为进一步改进一致性保留，其将这些方向投影至CLIP子空间，以最大限度地减少由纠缠纹理属性引发的一致性变化。最终方法可仅使用自然语言提示创建任意滑块用以动态编辑纹理材质。

4总结与展望

从技术发展角度，传统图形学先后融合深度学习方法、生成式框架，其渲染图片的方式和人工智能生成图像的方式也将逐渐融合，从以生成式框架方法生产资产加以传统图形学控制画面的方式进行协作，形成新的研究领域和应用工具，让智能延伸到图形底层逻辑，如几何表达、光照着色等。基于生成式AI框架的技术迭代，DiT框架等前沿方法弥补了以往技术在内容生成过程中的不足，如基于回归的方法多样性、生动性不足；GAN较难训练，依赖精确且冗余的参数调节等缺陷。经过技术迭代，近期研究则聚焦如何提升技术泛化性、稳定性与可控性，以及如何将上述特征与垂直领域应用相结合，这将驱使未来画面内容的每一个像素逐渐依赖于生成式AI技术的处理与渲染。然而这一转变也伴随着新的挑战且需进一步探索的领域，如数据管理、计算资源的优化和模型可解释性等。未来，不管是模型的个性化训练与微调，还是模型推理阶段的复杂计算，算力需求仍是限制条件，如何在不损失生成质量的情况下有效应用这些技术依然是关注热点。

从电影生产角度而言，由于生成式AI技术泛化性、稳定性与可控性的提升，其将正式成为电影生产过程中主流的辅助工具，且这一趋势预计将长期持续。由于生成式AI技术逐渐与传统图形学主题结合，通过利用自身的跨模态泛化能力渗透到电影制作领域更深的工作流程中，如镜头语言表达、灯光色彩编辑等，为虚拟摄制、后期特效、游戏开发、数智人等工具集中填充了更多辅助功能。从本次SIGGRAPH会议成果来看，研究方向即以确保AI能够提供高质量、连贯和高效的生成结果为主导，这也是AI作为电影生产辅助工具的基本要求。更重要的是，越来越多的研究从创作者角度出发，结合影像内容创作流程需求，对可控性、交互性、可编辑性等方向进行技术探索。新的辅助工具也必将催生新的生成模式和工作流程，比如借助跨模态生成能力，目前的内容生成方法已模糊了二维与三维数字资产生产模式的边界，对于电影理论而言，由技术瑕疵导致的AI风格“缺陷美”将逐渐改善，AI影像审美将回归传统，AI影像评判依然要遵从叙事结构、情感传递、创作意图、受众体验等因素。

从电影产业角度来看，目前的生成式AI技术聚焦生产效率的优化，而减少从电影本身着手改变。在无法保证影像生成质量的情况下，AI生成的成本效益或许会先波及“短平快”的自媒体和网络剧。就像2009年的《阿凡达》电影，与动作捕捉技术一样，越来越多的AI辅助部门出现在电影演职员表中，基于AI实时捕捉和渲染的硬件与解决方案也会出现在电影市场中，生成式AI技术在电影中的发展也取决于导演和制片的“胆识”。

未来，生成式AI技术除了作为辅助工具外，也会催生新的影像表达形式，如非线性叙事AI影像、基于生理数据AI影像、具身感知AI影像等。生成式AI是帮助未来影像跨越维度的通道，这一维度跨越体现在可交互性、可定制化等。通过生成式AI技术，影像创作能够突破传统的叙事和表达限制，探索更多创新形式和可能性。尽管我们在技术革新带来的兴奋中不断前行，但我们必须铭记，电影的核心依然在于叙事内容和情感表达。

参考文献

（向下滑动阅读）

[1] Sun H, Zheng R, Huang H B, et al. LGTM: Local⁃to⁃Global Text⁃Driven Human Motion Diffusion Model[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃9.

[2] Chen R, Shi M, Huang S, et al. Taming Diffusion Probabilistic Models for Character Control[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃10.

[3] Zhang Z, Liu R, Hanocka R, et al. TEDi: Temporally⁃Entangled Diffusion for Long⁃Term Motion Synthesis[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃11.

[4] Cohan S, Tevet G, Reda D, et al. Flexible Motion In⁃betweening with Diffusion Models[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃9.

[5] Ji X, Pan Z, Gao X, et al. Text⁃Guided Synthesis of Crowd Animation[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃11.

[6] Wu Y, Xu H, Tang X, et al. Portrait3D: Text⁃Guided High⁃Quality 3D Portrait Generation Using Pyramid Representation and GANs Prior[J]. ACM Transactions on Graphics.2024，43(4): 1⁃12.

[7] Liu H, Wang X, Wan Z, et al. HeadArtist: Text⁃conditioned 3D Head Generation with Self Score Distillation[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃12.

[8] Shen T, Gao J, Yin K, et al Deep Marching Tetrahedra: a Hybrid Representation for High⁃Resolution 3D Shape Synthesis[C]//Advances in Neural Information Processing Systems: Volume 34. Curran Associates, Inc,2021: 6087⁃6101.

[9] Lin C H, Gao J, Tang L, et al. Magic3D: High⁃Resolution Text⁃to⁃3D Content Creation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023：300⁃309.

[10] Jang W, Jung Y, Kim H, et al. Toonify3D: StyleGAN⁃based 3D Stylized Face Generator[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃11.

[11] Zhao Q, Long P, Zhang Q, et al. Media2Face: Co⁃speech Facial Animation Generation With Multi⁃Modality Guidance[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃13.

[12] Burgert R, Li X, Leite A, et al. Diffusion Illusions: Hiding Images in Plain Sight[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃11.

[13] Bao Z, Li Y, Singh K K, et al. Separate⁃and⁃Enhance: Compositional Finetuning for Text⁃to⁃Image Diffusion Models[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃10.

[14] Ma J, Liang J, Chen C, et al. Subject⁃Diffusion: Open Domain Personalized Text⁃to⁃Image Generation without Test⁃time Fine⁃tuning[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃12.

[15] Xie Y, Xu H, Song G, et al. X⁃Portrait: Expressive Portrait Animation with Hierarchical Motion Attention[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃11.

[16] Avrahami O, Hertz A, Vinker Y, et al. The Chosen One: Consistent Characters in Text⁃to⁃Image Diffusion Models[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃12.

[17] Guo X, Zheng M, Hou L, et al. I2V⁃Adapter: A General Image⁃to⁃Video Adapter for Diffusion Models[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃12.

[18] Zhao X, Sun J, Wang L, et al. InvertAvatar: Incremental GAN Inversion for Generalized Head Avatars[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃10.

[19] Gu Z, Yang E, Davis A. Filter⁃Guided Diffusion for Controllable Image Generation[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃10.

[20] Huang X, Salaun C, Vasconcelos C, et al. Blue noise for diffusion models[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃11.

[21] Yang S, Hou L, Huang H, et al. Direct⁃a⁃Video: Customized Video Generation with User⁃Directed Camera Movement and Object Motion[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃12.

[22] Mou C, Wang X, Song J, et al. DiffEditor: Boosting Accuracy and Flexibility on Diffusion⁃based Image Editing[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024：8488⁃8497.

[23] Li Y, Zhou P, Sun J, et al. Multi⁃Region Text⁃Driven Manipulation of Diffusion Imagery[J]. Proceedings of the AAAI Conference on Artificial Intelligence,2024，38(4): 3261⁃3269.

[24] Shi X, Huang Z, Wang F Y, et al. Motion⁃I2V: Consistent and Controllable Image⁃to⁃Video Generation with Explicit Motion Modeling[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃11.

[25] Bhat S F, Mitra N, Wonka P. LOOSECONTROL: Lifting ControlNet for Generalized Depth Conditioning[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃11.

[26] Alaluf Y, Garibi D, Patashnik O, et al. Cross⁃Image Attention for Zero⁃Shot Appearance Transfer[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃12.

[27] Zeng C, Dong Y, Peers P, et al. DiLightNet: Fine⁃grained Lighting Control for Diffusion⁃based Image Generation[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃12.

[28] Luo J, Ceylan D, Yoon J S, et al. IntrinsicDiffusion: Joint Intrinsic Layers from Latent Diffusion Models[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃11.

[29] Zeng Z, Deschaintre V, Georgiev I, et al. RGB↔X: Image decomposition and synthesis using material⁃ and lighting⁃aware diffusion models[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃11.

[30] Liu F L, Fu H, Lai Y K, et al. SketchDream: Sketch⁃based Text⁃To⁃3D Generation and Editing[J]. ACM Trans. Graph, 2024, 43(4): 44:1⁃44:13.

[31] Guerrero-Viu J, Hasan M, Roullier A, et al. TexSliders: Diffusion⁃Based Texture Editing in CLIP Space[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1⁃11.

【本文项目信息】中国博士后科学基金第75批面上资助“基于AI agent的智能叙事模型研究”（2024M750215）的成果。