复旦Hallo2：突破音频驱动人像动画，解锁长时高分辨率|人像动画|复旦|编码器

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在，欢迎加入共同成长。wisemodel社区上线，H800/H20等资源上线，价格实惠，灵活方便，支持在线微调训练模型，及和，并。

当下，主流的语音驱动数字人生成模型已可产出高质量短视频，然而，在直接生成分钟乃至小时级长视频时，仍面临诸多棘手难题。

自回归式长视频生成过程中，因其特性，误差会逐步累积，致使长时序视频在后期质量急剧下滑，背景与人脸皆易产生伪影，这给长视频生成工作带来极大挑战。同时，受计算资源与效率的制约，当前模型难以生成高分辨率视频，在一定程度上限制了模型的应用范围。

为攻克这些难关，我们团队精心打造了 Hallo2 模型。借助 patch drop 等前沿数据增强手段，融合基于 codebook 的人脸超分尖端技术，有的放矢地化解长视频生成与高分辨率呈现这两大核心挑战，成功实现了高分辨率长视频的流畅生成，为数字内容创作领域注入全新活力与无限可能。Hallo2 模型现已上传至始智AI wisemodel开源平台，欢迎体验。

模型地址：

https://wisemodel.cn/models/FusionLab/Hallo2

模型架构

我们的模型由ReferenceNet和DenisingNet组成，ReferenceNet 负责提取reference imag和motion frames的特征。为了实现长视频推理，我们引入patch drop技术，同时添加gaussian noise到motion frames之中，破话motion frames的appearance信息。

同时，reference image经过face encoder得到的face embedding经过cross attention注入模型，用于增强面部细节。Audio通过wav2vec进行encode，得到对应的embedding，并通过audio attention进行条件的注入。

为了进行表情的控制，我们引入textual control，利用adaptive layer norm进行注入。为了得到高分辨率的视频，我们引入基于codebook的超分模块同时加入temporal alignment, 实现具有时序一致性的人脸超分。

技术细节

1、Long-duration

Hallo2 达成长视频生成，主要仰赖多种数据增强技术的引入：

运动帧的区域舍弃（Patch-drop on motion frames）: 我们通过随机drop掉motion frames中的区域，使得模型能够学会从reference image中获取appearance信息，然后从motion frames中获取motion信息。这样做可以减少因motion frames的误差累积而导致的视频质量退化，提高生成视频人物动作的连续性，同时保证表情的自然。
引入高斯噪声（gaussian noise）：在训练过程中，我们在motion frames中引入gaussian noise，有利于增强模型的鲁棒性。面对具有误差累积的motion frames时，模型也能很好的处理，不会导致模型崩溃。

2、High-resolution

Hallo2为了生成高分辨率的人像视频，使用以下技术：

基于codebook的人脸超分：由于我们面向的是数字人领域，人脸细节可以高效的和codebook的特征进行对应。因此，我们结合VQ-VAE和 codebook技术，实现人脸场景的稳定超分。
时间对齐技术（Temporal alignment）：为了实现视频级别的超分，我们必须保证视频帧之间的连续性。通过temporal alignment技术，我们保证了不同帧在时序上特征的连续性，因此能够有效防止画面闪烁或动作突变的问题，保证生成视频具有良好的连续性。

3、Textualcontrol

Hallo2还引入了文本提示词作为输入条件，用来控制生成视频的表情：

使用adaptive layer norm 技术进行条件注入：通过引入文本标签作为条件输入，我们对生成视频的人物表情进行一定程度的控制。具体来说，我们使用CLIP的文本编码器提取文本特征，然后通过可学习的MLP输出用于adaptive layer norm的scale和shift参数，然后使用这些参数对hidden state进行缩放，以此注入文本控制条件。

模型训练

在初始阶段，模型训练依赖参考图像与输入驱动音频，以此生成目标视频帧。此阶段中，变分自动编码器（VAE）的编码器与解码器参数，以及人脸图像编码器参数均维持恒定。优化工作主要聚焦于参考网络以及去噪 U-Net 里的空间交叉注意力模块，旨在强化模型生成人像视频的效能。

具体而言，从输入视频片段里随机择取一幅图像当作参考图像，并把相邻的 16 帧设定为目标图像用于训练。再者，为提升模型的时间连贯性与平滑度，还引入了运动模块，从而有效减少视频帧之间的突兀变化，使生成的视频在时序上更加自然流畅，进一步增强了整体视觉效果与观看体验。

在第二阶段的训练过程中，针对运动帧运用 patch drop 与高斯噪声增强技术，以此构建具备时间一致性且过渡平滑的长时长视频。此阶段把受损的运动帧设为条件，有效提升了模型在延展序列里捕捉运动连贯性的水平。

与此同时，借助文本提示词，能够基于文本指令精准调控面部表情与动作，从而使生成的视频在人物表现上更加丰富生动，贴合多样化的创作需求，进一步拓展了模型在视频生成应用场景中的灵活性与实用性。

针对超分辨率模型，其核心在于优化codebook prediction输出结果。在此环节，我们会对 temporal alignment 模块的参数予以更新，以此强化高分辨率细节在时间维度上的连贯性，确保在提升图像分辨率的同时，视频画面的时序过渡自然流畅，不会出现因分辨率提升而导致的帧间不协调或细节闪烁等问题，从而整体提升超分辨率视频的视觉质量与观赏体验。

模型性能

从 Sync-C 和 Sync-D 指标能够看出，我们的方法成功达成了精准的唇形同步效果，人物口型与音频高度匹配，极大提升了视频的真实感。此外，Hallo2 所实现的较低 E-FID 指标，充分表明该模型生成的视频具备更为生动鲜活的表情，人物形象更加饱满且富有情感表现力，为视频内容增添了更多吸引力与感染力。

应用场景

Hallo2 具有极为广泛的应用场景，可广泛应用于各类需要生成人像动画的领域。在虚拟主播领域，能够为其生成实时动画，从而大幅提升直播与视频内容的吸引力；在视频会议方面，可为无法开启摄像头的用户生成虚拟形象，有效增强会议体验；于教育领域，有助于制作出生动形象的教育视频，有力提升学习兴趣与效率；在娱乐范畴内，可用于制作动画短片、电影特效等丰富的娱乐内容；甚至在历史研究领域，能让历史人物“重现于世”，发表演讲并展开互动等。

其目标用户群体主要包括内容创作者、教育工作者和研究人员。内容创作者像视频制作者、虚拟主播、动画师等，他们可借助 Hallo2 创作出更具创意与吸引力的作品；教育工作者，诸如教师、在线教育平台等，能利用它提升教学效果；还有研究人员，例如人工智能研究者、计算机视觉专家等，以便开展相关领域的深入研究与探索。

作者：崔佳豪

----- END -----

wisemodel相关：

系统升级：

系列模型：

关于wisemodel更多

欢迎持续关注和支持

开源社区建设需要长期坚持和投入，更需要广大用户的积极参与、贡献和维护，欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果，包括模型、数据集和代码等发布到 wisemodel.cn 社区，共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信，申请加入wisemodel社群，持续关注wisemodel.cn开源社区动态。

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来，逐渐成为影响力日益扩大的中立开放的AI开源社区，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员，欢迎感兴趣的朋友加盟，可以通过添加wisemodel微信，或者将简历投递到邮箱：liudaoquan@wisemodel.cn

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果，鼓励高校实验室、大企业研究团队、个人等，在wisemodel平台上分享各类优质内容，可以是AI领域最新论文解读、最新开源成果介绍，也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn，也可以扫码添加wisemodel微信。

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将打造成“HuggingFace”之外最活跃的AI开源社区，汇聚主要AI开源模型、数据集和代码等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。

向上滑动查看