《现代电影技术》｜百乐夫等：面向跨语种唇音同步与动态范围增强的真人数字分身生成方法研究|信号|现代电影技术|算法|编码器|语种

本文刊发于《现代电影技术》2026年第5期

专家点评

丁友东

教授

上海大学上海电影学院党委书记、博士生导师

真人数字分身技术正由虚拟播报工具，逐步走向支撑电影生产、国际传播和智能交互的影像基础设施，其价值不只是替代人工出镜，而是把声音、口型、表情、肤色和动态范围纳入可计算、可复用、可标准化的生产链条。随着生成式人工智能、多模态感知和虚拟摄制有效融合，数字分身将在新闻、教育、文旅、广告和影视制作中连接真人形象与虚拟场景，推动内容生产由单次拍摄转向资产化、模板化和可持续生成模式。尤其在多语种传播中，低资源语言的声纹复刻与唇音同步关系到文化表达的准确性和传播效率；在影视级应用中，HDR画质、身份一致性和表演可信度决定其能否进入高技术规格制作体系，也为后续全身驱动和交互式数字人发展奠定基础。同时，行业还应同步完善肖像授权、数据安全、内容标识与伦理规范，使技术创新建立在可信边界内。《面向跨语种唇音同步与动态范围增强的真人数字分身生成方法研究》一文抓住行业落地痛点，围绕声纹克隆、跨语种唇音同步和SDR/HDR视觉优化构建端到端方案，并通过指标测试和新华社场景验证有效性。论文问题导向明确，兼顾算法整合、工程效率和广播影视标准，对真人数字分身工业化应用具有一定参考价值。

作者简介

百乐夫

硕士，新华通讯社通信技术局工程师，主要研究方向：计算机视觉。

张宝亢

北京邮电大学数字媒体与设计艺术学院博士研究生在读，新华通讯社音视频部主任编辑，主要研究方向：智能影像。

摘要

针对当前真人数字分身在影视级应用中面临的跨语种唇音同步精度低、生成画质动态范围不足等难题，本文提出端到端的全流程解决方案：在语音合成与声纹克隆模块，融合MiniMax⁃Speech模型与基于检索的语音转换（RVC）变声技术，实现了低资源语言的高保真声纹克隆；在唇音同步模块，通过多语种自适应策略拓展SyncTalk 2D模型对不同语音识别模型的适配范围，提升特殊语种和跨语种情况下的唇形自然度与精准度；在视觉优化模块，引入逆色调映射算法，实现了从标准动态范围（SDR）到符合ITU⁃R BT.2100标准的高动态范围（HDR）画质转换。实验结果表明，该系统在单张英伟达（NVIDIA）A10显卡环境下推理时长仅为视频总时长的 50%，其图像质量客观评价结果和主观视觉效果优于基线模型。该系统已在新华通讯社新闻播报场景中验证了有效性，可为影视制作、虚拟演播等领域提供技术参考。

关键词

数字分身；多模态算法；唇音同步；HDR影像；生成式人工智能

引言

在人工智能（AI）技术革新的推动下，数字分身正经历从简单的视听输出工具向具备拟人化与情感化交互能力的智能体转变[1]。特别是通过采集真人的视频、音频数据，实现1∶1形象复刻的真人数字分身技术，因其在影视替身、虚拟演员、新闻播报及跨语种内容生产中的广泛应用潜力，成为计算机视觉（CV）与电影工程领域的交叉研究热点[1,2]。在电影工业中，该技术已体现出重要的应用价值，例如《速度与激情7》借助数字分身技术重现已故演员保罗·沃克的银幕形象，《星球大战》系列亦通过数字分身技术使凯丽・费雪“回归”后期作品，展现了数字分身在影视创作中的独特应用价值与情感表现力[3]。

尽管当前数字分身唇音同步（Lip⁃sync）技术取得了显著进展，但针对低资源语言（特殊语种、方言）的高精度唇音同步，以及影视级高动态范围（HDR）的画质合成，现有研究仍存在瓶颈。首先，现有方法对低资源语言的语音特征提取不充分，易导致唇形偏差，产生视觉脱节感；其次，主流标准动态范围（SDR）生成模型在色域与色彩深度上难以适配HDR标准，限制了AI素材与高质量实拍素材的融合。

针对上述问题，本文提出一套影视级真人数字分身智能影像生成系统。本研究的主要贡献在于：第一，通过集成MiniMax⁃Speech[4]语音模型与基于检索的语音转换（Retrieval⁃based Voice Conversion, RVC）变声技术，配合多语种自适应策略提升SyncTalk 2D[5]在低资源语言和跨语种场景下的唇音同步精度；第二，引入逆色调映射（Inverse Tone Mapping, ITM）算法，实现了从SDR到HDR的画质提升；第三，完成了系统级工程实现，在学习感知图像块相似度（LPIPS‌）、弗雷歇初始距离（FID）等图像质量指标上优于基线模型。

研究背景与相关工作

2.1 数字分身唇音同步驱动概况与早期技术发展

唇音同步驱动旨在根据音频信号，生成与之时间同步、视觉效果自然的唇部运动画面。该技术的发展始终围绕两大核心目标展开：一是跨模态对齐，即音频与唇形运动的精准同步；二是身份一致性，即生成内容与目标人物外貌、神态的高度匹配。

在技术分类上，唇音同步可从三个维度进行划分：一是按驱动媒介划分，包括音频驱动视频与音频驱动图像；二是按推理方式划分，分为适配任意形象的泛化推理与针对特定人物数据的定制化推理；三是按技术架构划分，涵盖了从早期的规则映射、统计模型，到基于生成式对抗网络（GAN）、扩散模型（Diffusion Model）[6]及神经辐射场（NeRF）[7]等多元化路径。

从演进历程来看，早期唇音同步依赖规则映射。例如，Viseme[8]模型通过将语音音素映射为固定唇形类别，实现基础的唇音同步。这类方法计算成本低，但存在自然度差、无法反映语调变化、泛化能力弱等缺陷，适用于简单动画场景。

2017年，随着卷积神经网络（CNN）在视觉领域的快速崛起，研究者开始探索通过CNN实现音频驱动三维面部动画的技术路径。Audio2face[9]通过CNN直接处理语音信号并泛化到不同说话者，为后续音频驱动数字分身技术奠定了关键范式。该模型训练目标是通过输入音频获得人物头部3D坐标点位置，从而驱动三维面部动画。尽管该工作聚焦于“三维坐标点”而非直接生成唇形图像，但其由音频输入到3D动态点输出的端到端框架明确了唇音同步驱动的核心逻辑，即通过神经网络学习语音与视觉运动的映射关系。这一范式对后续基于GAN、NeRF等模型的设计具有重要指导意义。

2.2 主流技术路线分析

2.2.1 GAN主导的泛化推理

随着深度学习（DL）技术的成熟，尤其是GAN在图像生成任务中的成功，数字分身唇音同步驱动进入“数据驱动+泛化推理”的快速发展期。该阶段的核心目标是通过大量视频数据预训练，使模型具备适配任意人脸形象的零样本（Zero⁃shot）推理能力。

Wav2Lip[10]模型是该阶段的代表性工作。其采用GAN的技术路线，通过生成器与同步判别器的对抗训练实现唇音同步。生成器通过最小化L1重建损失和专家同步损失以优化输出。同步判别器在传统判别器基础上做出改进，专注判断唇形与语音的同步性。

不足的是，Wav2Lip的输出面部区域分辨率仅为96×96，人脸画面分辨率的不足限制了其商业应用前景。针对此问题，衍生出两条技术路线：其一为提升输出画面分辨率，如Wav2Lip 288、Wav2Lip 384，但该方法训练收敛困难，对数据集质量要求极高，多为商用闭源模型，且高分辨率下唇音同步瑕疵更易暴露；其二为增加图像后处理，通过超分辨率模型对模糊的人脸画面进行处理，该方法无需重新训练模型，但如输入信息量不足，易导致超分结果与原人物样貌拼接处出现明显瑕疵。

2.2.2 基于结构先验的单图驱动技术

针对数据门槛高的问题，以SadTalker[11]为代表的单图驱动技术，通过三维可变形模型（3DMM）将音频转为三维运动系数，进而驱动单图人物“说话”。但该方法受限于3DMM的固定先验结构，生成的头部运动画面与固定不动的身体画面容易产生视觉割裂感，应用范围受限。

2.2.3 基于潜在表示与扩散模型的生成技术

针对画面细节表现上的瓶颈，腾讯提出的MuseTalk[12]系列模型实现了更好的泛化推理能力，配套的MusePose与MuseV则实现了从单张人物图片到指定动作视频的功能，三者结合形成从输入图片到输出唇音同步、具有连贯动作的完整数字分身制作流程。当出现更优的泛化唇音同步模型，例如基于扩散模型的LatentSync[13]，只需对该制作流程中的唇音同步部分进行替换即可实现更好的整体效果。这一设计为后续系统迭代提供了模块化思路。

EchoMimicV2[14]针对现有方法仅关注头部区域的问题，实现端到端音频驱动框架，生成包含肩膀以下身体的半身人类动画。该模型突破了“仅头部动态”的限制，扩展了音频驱动的应用场景。此外，Animate Anyone[15]和MimicMotion[16]等研究也可取得不错的效果。

2.2.4 基于NeRF的定制形象推理

当应用场景延伸至虚拟偶像、新闻主持人、带货主播等高保真需求领域时，“生成内容与原人物高度一致”成为核心需求。由GAN实现的泛化模型因依赖大量不同人物的预训练数据，生成的面部本质上是“基于统计推测的结果”，难以精准匹配特定人物的外貌特征，如独特的唇形轮廓、面部纹理、雀斑等细节。由此催生了基于定制形象推理的技术路线，即通过针对特定人物数据训练模型，解决身份一致性问题。

NeRF通过隐式三维建模，为解决身份一致性问题提供了新思路。GeneFace[17]模型是该路线的代表性工作之一，采用3D人脸关键点作为中间变量，构建了一个三阶段框架，显著提升了基于NeRF的方法在泛化能力与身份一致性上的表现。后续的GeneFace++[18]、SyncTalk[19]等模型则在此基础上进一步优化。

SyncTalk针对NeRF模型的常见问题，如嘴唇抖动噪声等，引入了音视频编码器预训练、3D面部先验模型、头部运动跟踪与光流优化等技术，平衡整体清晰度与细节表现。这些改进使模型能够生成高清晰度、表情自然、头部姿态稳定的唇音同步视频。

综上所述，现阶段数字分身技术尤其在语音驱动唇音同步方面取得显著进展；但在低资源语言的高精度同步生成存在一定缺陷，就高质量视觉呈现而言，尤其是影视级高动态范围画质的产出，现有的应对方案相对不足。

真人数字分身智能影像生成系统

本文提出一套真人数字分身智能影像生成系统，可实现面向多语种与方言场景的高质量唇音同步生成，并支持影视级 HDR 视频输出。基于该系统，本文进一步探索了数字分身技术在虚拟主持人、新闻播报和影视制作等场景中的应用潜力。

3.1 系统整体架构

本文所述系统分为语音合成与声纹克隆、唇音同步、视觉优化3个核心模块，构成了一个端到端的真人数字分身影像生成系统。如图1所示，语音合成与声纹克隆模块作为流程的起点，负责将输入文本转换为与真人音色一致的多语种语音，为后续驱动提供高质量的音频源。唇音同步模块作为核心技术，以语音合成与声纹克隆模块的输出为驱动信号，生成精准同步的唇形与面部视频。视觉优化模块作为流程的终点，对生成视频进行画质增强与格式转换，确保输出符合广播、影视级标准，包括高清与HDR格式。该架构具有较好的模块解耦性，便于各模块独立开发与迭代。

图1　系统架构

3.2 语音合成与声纹克隆模块：多语种高精度语音合成与声纹克隆

语音合成与声纹克隆模块是构建数字分身一致性的首要环节。为实现高质量、多语种的声纹克隆与合成，如图2所示，模块采用了“高资源语言+低资源语言”双轨模式，以应对不同语种和场景的需求。

图2　语音合成与声纹克隆模块

对中文、英文等高资源语言，模块接入MiniMax⁃Speech语音合成与声纹克隆服务。MiniMax⁃Speech模型采用基于自回归Transformer的文本语音转换（Text⁃To⁃Speech, TTS）架构，其技术特点主要体现在三个方面。第一，编码器部分能够从一段约30秒的参考音频中，提取说话人的音色、韵律风格等细粒度特征，并将其编码为一个固定大小的条件向量。该向量与自回归Transformer进行联合训练，专为TTS任务优化，能提供比传统方法更丰富、更相关的说话人信息，从而生成高度个性化的语音。第二，为实现对连续语音特征复杂分布的建模，该模型引入了Flow⁃VAE。其通过流模型对潜在空间进行非线性且灵活的转换，从而更精准地捕捉语音数据中的动态变化和复杂模式，提升合成语音的自然度和流畅性。第三，在Flow⁃VAE的训练中，模型采用KL散度对编码器输出进行约束，显著增强了编码器的信息压缩与表达能力，避免了信息瓶颈。在客观指标评测中，MiniMax⁃Speech在词错误率和说话人相似度上均优于同期主流模型。在内部的真实应用测评中，其合成的语音在自然度和音色还原度上相比CosyVoice[20]等开源模型表现更优，仅需30秒音频即可完成声纹克隆，并支持语速、音量、情绪等多维度精细调节。

对于四川方言、陕西方言以及乌尔都语等低资源语种，由于缺乏高质量的商用声纹克隆服务，模块设计了基于成熟TTS语音合成服务和RVC语音风格迁移技术的组合方案。在训练阶段，需采集真人时长不低于5分钟的纯净语音音频。利用这些数据训练一个专用Encoder模型，并构建其音色特征库。在推理阶段，首先选用一个与真人形象性别相同、音色最接近的基础发音人，利用其TTS服务（如接入的科大讯飞服务）合成目标语种的语音；之后将该合成语音输入训练好的模型中。模型通过HuBERT[21]提取深层语义特征，并通过RMVPE[22]提取精准的基频信息。接着，通过检索匹配系统，将输入语音的特征与训练阶段建立的特征库进行比对和融合，完成从基础发音人音色到真人音色的风格迁移。最后，通过解码器重构出最终的高精度语音。此方案将高质量TTS的音质优势与RVC强大的声纹克隆能力相结合，有效解决了低资源语言数字分身的声纹克隆难题。

3.3 唇音同步模块：语义驱动的精准同步技术

唇音同步是衡量数字分身真实感的重要指标。当前模块在SyncTalk 2D的基础上，进行工程优化与改进，核心在于构建从音频语义到唇形运动的映射。唇音同步训练流程是一个两阶段过程，旨在建立音频语义与唇形画面间的稳定联系，确保画面质量。

（1）SyncNet判别器预训练

如图3所示，模型的唇音同步效果高度依赖于前端语音识别模型所提取的语义特征质量，模块实施了“专语种专模型”的多语种自适应策略，针对不同类型的语言，使用wav2vec[23]、HuBERT、Whisper[24]等具有独立Encoder结构的支持该语种的语音识别预训练模型，从音频中提取深层的、与内容相关的语义特征。随后，根据不同模型的向量维度修改并训练对应的SyncNet判别器，其目标是学习将音频的语义特征与对应的唇部视频帧在特征空间中对齐。此阶段为后续训练提供了一个强大的音频-视觉同步先验。

图3　SyncNet判别器预训练

（2）主干网络训练

在此阶段，训练唇音同步生成的主干网络。其损失函数融合了3个层面的监督，确保生成结果既同步又逼真。语义层面，其利用预训练的SyncNet计算生成帧与驱动音频间的同步损失，确保唇形运动在内容上精准匹配音频；在画面感知层面，使用预训练的VGG⁃19[25]网络提取生成帧与真实帧的高级特征，计算感知损失，保证生成面部的整体结构、光照和质感的自然度，避免局部唇形正确但整体画面违和；而像素层面，其计算生成帧与真实帧在像素空间上的绝对误差，作为基础的重建损失，保证画面的清晰度。

3.4 视觉优化模块：广播级HDR影像生成

为满足广播与影视场景的画质要求，本文设计了视觉优化模块，核心目标是实现从SDR到HDR的高质量逆色调映射处理，以解决数字分身在影视工业部署中的动态范围和色域瓶颈。

根据ITU⁃R BT.2100⁃2《用于制作和国际节目交换的高动态范围电视的图像参数值》（Image parameter values for high dynamic range television for use in production and international programme exchange）[26]、ITU⁃R BT.1886《高清电视演播室制片用平板显示器的参考光电传递函数》（Reference electro⁃optical transfer function for flat panel displays used in HDTV studio production）[27]提供的SDR视频和HDR视频的光电转换函数（OETF），本文将上述标准定义的SDR、HLG、PQ三条特性曲线统一绘制于同一坐标系下进行对比（图4）。

图4　SDR、HLG、PQ的光电传输特性曲线

ITU⁃R BT.2408⁃3《HDR电视制作操作实践指南》（Guidance for operational practices in HDR television production）[28]报告明确指出，无论使用HLG还是PQ电光转换函数（EOTF），不同肤色人种的面部皮肤区域在信号电平分布上相对集中且稳定（HLG为25%~65%，PQ为30%~55%）。根据上图可知，在这一关键的肤色区间内，SDR信号所分配的量化电平数与HDR信号没有显著差异。因此，可通过合理的映射进行信号重新分配，结合色彩空间转换，完成从标准动态范围Rec.709色域到高动态范围Rec.2020色域的映射。

基于上述分析，模块使用了低失真的、基于色彩科学的映射变换流程（图5）。

图5　SDR转HDR映射变换流程

（1）逆光电转换。将生成的符合Rec.709标准的SDR视频信号，通过逆SDR OETF，逆向恢复为被摄场景的线性光信号。

（2）色域转换。应用色彩转换矩阵，将视频的色彩空间从Rec.709标准转换至更宽广的Rec.2020色域。

（3）HDR光电转换。对线性光信号进行必要的色调映射与范围调整后，使用HLG的OETF进行编码，最终生成符合广播标准的HDR视频。

通过上述计算完成多段视频帧画面的映射计算，并通过DaVinci Resolve专业调色软件制作对应颜色查找表（LUT），以便后续快速实现SDR到HDR的逆色调映射。该方法在保证人物肤色自然、准确还原的同时，提升了画面的动态范围和色彩表现力，使输出视频达到广播、影视级HDR制作标准。

系统测试与结果分析

4.1 实验环境与真人数字分身数据制作

为构建高质量的真人数字分身数据集，我们在受控的专业演播室环境中进行了数据采集。演播室配备了均匀、稳定的环形布光系统与绿幕背景，使用一台佳能EOS 5D Mark IV 全画幅相机以4K分辨率、24 FPS的规格进行录制，同步录制了48 kHz采样率的高保真音频。

数据采集包含不同性别、年龄与面部特征的参与者。为尽可能全面覆盖发音与口型变化，我们为本次实验专门设计了一套中、英文朗读脚本。中文脚本系统性地涵盖了所有声母、韵母及常见组合，英文脚本则包含国际音标中的各类元音、辅音及连读样例。所有语句均选自新华通讯社稿件，保证语义完整、语调自然连贯，旨在诱发参与者真实、多样的唇部运动与微表情。每位参与者需以中文或英语朗读该脚本，录制内容包含中性、喜悦等情绪下的口语表达。

我们共采集了16段高质量视频序列，平均每段长度为8271帧。所有录制均保持了严格的光照一致性、固定机位与中性背景，以最大程度减少无关变量干扰。

为验证本文方法的有效性，我们选取技术路线十分相近的，同为基于NeRF的SyncTalk 2D唇音同步方法与本文方法开展对比实验。SyncTalk 2D和本文所述方法均进行了100轮训练。

4.2 测试结果及分析

本次测试采用全参考质量评价方式开展客观评测。图像质量评估选取峰值信噪比（PSNR）、LPIPS‌、多尺度结构相似度（MS⁃SSIM）以及FID作为评估指标。唇音同步效果则采用 LSE⁃C 指标进行客观评测，并结合案例观察进行定性分析。

表1展示了图像质量的客观评测结果，本文方法在上述指标中均优于基线模型。唇音同步效果方面，从图6可观察到本文方法在部分元音（如 /u/、/o/）的合成与表现有明显提升。

表1　唇音同步模型评测结果

图6　唇音同步效果对比

4.3 效率评估

基于腾讯云分布式算力平台，本文方法采用NVIDIA A10 GPU、英特尔®至强®Gold 6346 CPU及64 GB内存的标准硬件配置，实现了从文本输入到高清视频输出的端到端数字分身生成流程。该配置下生成一段时长为1分钟的数字分身视频仅需30秒。较传统计算机图形学（CG）制作流程体现出较高的生成效率，验证了大规模、快节奏的数字内容生成的技术可行性。

基于系统生成的数字分身视频，用户可进一步利用PikaSwaps等人工智能生成内容（AIGC）视频编辑工具进行背景替换、服装调整及特效制作等后期工作。这一流程不仅扩展了数字分身在短视频、电商、在线教育、新闻播报等不同行业的应用边界，还支持“一次生成，多次复用”的生产模式。

应用场景与前景

本文提出的真人数字分身智能影像生成系统具有较强的应用拓展空间，典型应用场景主要包括新闻播报和电影制作。

5.1 虚拟主持人和新闻播报

数字分身技术在传媒领域的应用正在重塑内容生产模式和传播形态，为行业带来效率提升和创意革新的双重机遇[29]。本文提出的真人数字分身智能影像生成系统已应用于新华通讯社采编报道流程中（图7）。采编人员可使用此系统生成新闻播报员真人数字分身，通过精准的唇音同步和面部表情生成，数字分身不仅能够完成标准化新闻播报任务，还可根据不同的情境进行个性化表现。例如，在新闻发布或者突发事件报道中，采编编辑可根据播发内容选择数字分身形象与情绪风格。其中，形象可设置为全身或半身，情绪可设置为严肃或欢快。在设定好形象与情绪后，输入文字稿，可实时生成数字分身播报新闻的视频，满足热点和突发报道的实效性需求。尤其在多语种环境下，快速生成不同语言版本的播报内容，有效提高了新闻播发效率，拓展了新闻传播场域。

图7　真人数字分身智能影像生成系统新闻生成流程

5.2 电影制作与虚拟角色

在电影制作中，数字分身技术已应用于虚拟角色创建、特效制作与沉浸式叙事等领域，提升了制作效率与表现力。针对已故演员的数字化“复活”或特定年龄段影像的重塑，通过对历史影像资料进行建模与特征提取，即可构建具备精准面部微表情与声音特征的虚拟角色，例如好莱坞电影《超能敢死队》（Ghostbusters：Afterlife），该片“复活”了已故演员哈罗德・雷米斯，这不仅能有效降低制作成本，也为电影艺术创作赋予更多叙事可能性。

在此背景下，本文提出的唇音同步及画质增强技术，可为电影制作提供唇形自然、画质出色的人物视频素材。未来可结合具有视频编辑功能的AI工具，进一步根据创作需求高效合成高质量视频片段，为数字分身在影视工业中的落地应用提供具有可行性的技术支持路径。

伴随技术不断拓展，数字分身将在更多领域实现应用，诸如医疗领域里的虚拟医生、虚拟导览，法律服务中的虚拟顾问，娱乐产业的虚拟偶像，广告领域品牌虚拟代言人等。计算能力的提高与算法的优化，将使数字分身生成的速度和精准性进一步提升，进而促进其应用场景的深化与拓展。

结语与展望

针对当前真人数字分身跨语种唇音同步精准度低和生成画质动态范围不足的行业痛点，本文设计并验证了一套端到端的真人数字分身智能影像生成系统，该系统可适应低资源语种场景，并支持影视级 HDR 画质输出，有效克服了传统模型在声纹克隆失真与动态范围不足上的局限。经实验验证，该系统不仅在LPIPS与FID等客观图像质量评价指标上优于基线模型，也在NVIDIA A10 GPU环境中表现出较高的推理效率，为高品质数字分身的低成本、工业化落地提供了技术支撑。

尽管本系统在唇音同步及画质增强方面获得显著成效，但在交互水平上仍存在改进空间。目前系统主要以语义为驱动，未来将导入更精细的情绪控制模块，让数字分身可按照文本情绪自动调节细微表情，增强表情表达能力；当前研究把重点放在面部与半身生成上，未来会探索将骨骼绑定与动作捕捉技术相融合，实现文本带动全身连贯动作的生成，进一步提升其在复杂场景中的表现能力。

综上，本研究为高品质真人数字分身的自动化生产打造了一套可行的技术方案，于新华通讯社实际业务中证实了这一技术的有效性，对于带动媒体融合发展和影视工业智能化升级具有参考价值。

参考文献

（向下滑动阅读）

[1] 李晓辉. AI数字人视听表达策略的人机协同机制研究[J]. 现代电影技术, 2025(11): 41⁃47.

[2] ZHANG R, YU B, MIN J, et al. Generative AI for film creation: A survey of recent advances[J]. Foundations and Trends in Computer Graphics and Vision, 2025, 15(3): 149⁃353.

[3] 张净雨. 数字后人类身体的美学建构与意义生成[J]. 当代电影,2020(7):152⁃158.

[4] ZHANG B, GUO C, YANG G, et al. MiniMax⁃Speech: intrinsic zero⁃shot text⁃to⁃speech with a learnable speaker encoder[EB/OL]. (2025⁃05⁃12) [2025⁃10⁃01]. https://arxiv.org/abs/2505.07916.

[5] PENG Z Q. SyncTalk_2D[EB/OL]. [2025⁃10⁃01]. https://github.com/ziqiaopeng/SyncTalk_2D.

[6] SOHL-DICKSTEIN J, WEISS E A, MAHESWARANATHAN N, et al. Deep unsupervised learning using nonequilibrium thermodynamics[C]//Proceedings of the 32nd International Conference on Machine Learning, 2015, 37: 2256⁃2265.

[7] MILDENHALL B, SRINIVASAN P P, TANCIK M, et al. NeRF: representing scenes as neural radiance fields for view synthesis[C]//European Conference on Computer Vision, 2020: 405⁃421.

[8] 蒋冬梅, 谢磊, RAVYSE I, 等. 基于Viseme的连续语音识别系统及Talking Head[J]. 电子与信息学报, 2004, 26(3): 375⁃381.

[9] KARRAS T, AILA T, LAINE S, et al. Audio⁃driven facial animation by joint end⁃to⁃end learning of pose and emotion[J]. ACM Transactions on Graphics, 2017, 36(4).

[10] PRAJWAL K R, MUKHOPADHYAY R, NAMBOODIRI V, et al. A lip sync expert is all you need for speech to lip generation in the wild[C]//Proceedings of the 28th ACM International Conference on Multimedia, 2020: 484⁃492.

[11] ZHANG W, CUN X, WANG X, et al. SadTalker: learning realistic 3D motion coefficients for stylized audio⁃driven single image talking face animation[EB/OL]. (2022⁃11⁃22) [2025⁃10⁃01]. https://arxiv.org/abs/2211.12194.

[12] ZHANG Y, LIU M, CHEN Z, et al. MuseTalk: real⁃time high quality lip synchronization with latent space inpainting[EB/OL]. (2024⁃03⁃26) [2025⁃10⁃01]. https://arxiv.org/abs/2410.10122.

[13] LI C, ZHANG C, XU W, et al. LatentSync: taming audio⁃conditioned latent diffusion models for lip sync with SyncNet supervision[EB/OL]. (2024⁃12⁃12) [2025⁃10⁃01]. https://arxiv.org/abs/2412.09262.

[14] MENG R, ZHANG X, LI Y, et al. EchoMimicV2: towards striking, simplified, and semi⁃body human animation[EB/OL]. (2024⁃11⁃15) [2025⁃10⁃01]. https://arxiv.org/abs/2411.10061.

[15] HU L, GAO X, ZHANG P, et al. Animate Anyone: consistent and controllable image⁃to⁃video synthesis for character animation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 779⁃790.

[16] ZHANG Y, GU J, WANG L W, et al. MimicMotion: high⁃quality human motion video generation with confidence⁃aware pose guidance[EB/OL]. (2024⁃06⁃28) [2025⁃10⁃01]. https://arxiv.org/abs/2406.19680.

[17] YE Z, JIANG Z, REN Y, et al. GeneFace: generalized and high⁃fidelity audio⁃driven 3D talking face synthesis[EB/OL]. (2023⁃01⁃31) [2025⁃10⁃01]. https://arxiv.org/abs/2301.13430.

[18] YE Z, HE J, JIANG Z, et al. GeneFace++: generalized and stable real⁃time audio⁃driven 3D talking face generation[EB/OL]. (2023⁃05⁃01) [2025⁃10⁃01]. https://arxiv.org/abs/2305.00787.

[19] PENG Z, HU W, SHI Y, et al. SyncTalk: the devil is in the synchronization for talking head synthesis[EB/OL]. (2023⁃11⁃29) [2025⁃10⁃01]. https://arxiv.org/abs/2311.17590.

[20] DU Z, CHEN Q, ZHANG S, et al. CosyVoice: a scalable multilingual zero⁃shot text⁃to⁃speech synthesizer based on supervised semantic tokens[EB/OL]. (2024⁃07⁃07) [2025⁃10⁃01]. https://arxiv.org/abs/2407.05407.

[21] HSU W N, BOLTE B, TSAI Y H H, et al. HuBERT: self⁃supervised speech representation learning by masked prediction of hidden units[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 3451⁃3460.

[22] WEI H, CAO X, DAN T, et al. RMVPE: a robust model for vocal pitch estimation in polyphonic music[C]//INTERSPEECH 2023, 2023: 5421⁃5425.

[23] BAEVSKI A, ZHOU H, MOHAMED A, et al. wav2vec 2.0: a framework for self⁃supervised learning of speech representations[J]. Advances in Neural Information Processing Systems, 2020, 33: 12449⁃12460.

[24] RADFORD A, KIM J W, XU T, et al. Robust speech recognition via large⁃scale weak supervision[C]//Proceedings of the 40th International Conference on Machine Learning, 2023:28492⁃28518.

[25] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large⁃scale image recognition[C]//International Conference on Learning Representations, 2015.

[26] International Telecommunication Union. Image parameter values for high dynamic range television for use in production and international programme exchange: Recommendation ITU-R BT.2100-2[S],2025.

[27] International Telecommunication Union. Reference electro⁃optical transfer function for flat panel displays used in HDTV studio production: Recommendation ITU-R BT.1886-0 [S], 2011.

[28] International Telecommunication Union. Guidance for operational practices in HDR television production: Report ITU-R BT.2408-3 [S],2024.

[29] TAO F, ZHANG H, QI Q, et al. Advances in digital twin technology under the “object⁃human⁃environment” interaction perspective[J]. Journal of Manufacturing Systems, 2023, 68: 1⁃15.

期刊导读 |《现代电影技术》2026年第5期

冯贤杰等：超高清沉浸式视频实时分布式云渲染平台设计及应用

王岚君等：面向影视创作的AIGC可控生成与溯源技术进展研究