始智AI wisemodel.cn开源社区
始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。wisemodel社区上线,H800/H20等资源上线,价格实惠,灵活方便,支持在线微调训练模型,及和,并。
当下,主流的语音驱动数字人生成模型已可产出高质量短视频,然而,在直接生成分钟乃至小时级长视频时,仍面临诸多棘手难题。
自回归式长视频生成过程中,因其特性,误差会逐步累积,致使长时序视频在后期质量急剧下滑,背景与人脸皆易产生伪影,这给长视频生成工作带来极大挑战。同时,受计算资源与效率的制约,当前模型难以生成高分辨率视频,在一定程度上限制了模型的应用范围。
为攻克这些难关,我们团队精心打造了 Hallo2 模型。借助 patch drop 等前沿数据增强手段,融合基于 codebook 的人脸超分尖端技术,有的放矢地化解长视频生成与高分辨率呈现这两大核心挑战,成功实现了高分辨率长视频的流畅生成,为数字内容创作领域注入全新活力与无限可能。Hallo2 模型现已上传至始智AI wisemodel开源平台,欢迎体验。
模型地址:
https://wisemodel.cn/models/FusionLab/Hallo2
01
模型架构
我们的模型由ReferenceNet和DenisingNet组成,ReferenceNet 负责提取reference imag和motion frames的特征。为了实现长视频推理,我们引入patch drop技术,同时添加gaussian noise到motion frames之中,破话motion frames的appearance信息。
同时,reference image经过face encoder得到的face embedding经过cross attention注入模型,用于增强面部细节。Audio通过wav2vec进行encode,得到对应的embedding,并通过audio attention进行条件的注入。
为了进行表情的控制,我们引入textual control,利用adaptive layer norm进行注入。为了得到高分辨率的视频,我们引入基于codebook的超分模块同时加入temporal alignment, 实现具有时序一致性的人脸超分。
02
技术细节
1、Long-duration
Hallo2 达成长视频生成,主要仰赖多种数据增强技术的引入:
运动帧的区域舍弃(Patch-drop on motion frames): 我们通过随机drop掉motion frames中的区域,使得模型能够学会从reference image中获取appearance信息,然后从motion frames中获取motion信息。这样做可以减少因motion frames的误差累积而导致的视频质量退化,提高生成视频人物动作的连续性,同时保证表情的自然。
引入高斯噪声(gaussian noise):在训练过程中,我们在motion frames中引入gaussian noise,有利于增强模型的鲁棒性。面对具有误差累积的motion frames时,模型也能很好的处理,不会导致模型崩溃。
2、High-resolution
Hallo2为了生成高分辨率的人像视频,使用以下技术:
基于codebook的人脸超分:由于我们面向的是数字人领域,人脸细节可以高效的和codebook的特征进行对应。因此,我们结合VQ-VAE和 codebook技术,实现人脸场景的稳定超分。
时间对齐技术(Temporal alignment):为了实现视频级别的超分,我们必须保证视频帧之间的连续性。通过temporal alignment技术,我们保证了不同帧在时序上特征的连续性,因此能够有效防止画面闪烁或动作突变的问题,保证生成视频具有良好的连续性。
3、Textualcontrol
Hallo2还引入了文本提示词作为输入条件,用来控制生成视频的表情:
使用adaptive layer norm 技术进行条件注入:通过引入文本标签作为条件输入,我们对生成视频的人物表情进行一定程度的控制。具体来说,我们使用CLIP的文本编码器提取文本特征,然后通过可学习的MLP输出用于adaptive layer norm的scale和shift参数,然后使用这些参数对hidden state进行缩放,以此注入文本控制条件。
03
模型训练
在初始阶段,模型训练依赖参考图像与输入驱动音频,以此生成目标视频帧。此阶段中,变分自动编码器(VAE)的编码器与解码器参数,以及人脸图像编码器参数均维持恒定。优化工作主要聚焦于参考网络以及去噪 U-Net 里的空间交叉注意力模块,旨在强化模型生成人像视频的效能。
具体而言,从输入视频片段里随机择取一幅图像当作参考图像,并把相邻的 16 帧设定为目标图像用于训练。再者,为提升模型的时间连贯性与平滑度,还引入了运动模块,从而有效减少视频帧之间的突兀变化,使生成的视频在时序上更加自然流畅,进一步增强了整体视觉效果与观看体验。
在第二阶段的训练过程中,针对运动帧运用 patch drop 与高斯噪声增强技术,以此构建具备时间一致性且过渡平滑的长时长视频。此阶段把受损的运动帧设为条件,有效提升了模型在延展序列里捕捉运动连贯性的水平。
与此同时,借助文本提示词,能够基于文本指令精准调控面部表情与动作,从而使生成的视频在人物表现上更加丰富生动,贴合多样化的创作需求,进一步拓展了模型在视频生成应用场景中的灵活性与实用性。
针对超分辨率模型,其核心在于优化codebook prediction输出结果。在此环节,我们会对 temporal alignment 模块的参数予以更新,以此强化高分辨率细节在时间维度上的连贯性,确保在提升图像分辨率的同时,视频画面的时序过渡自然流畅,不会出现因分辨率提升而导致的帧间不协调或细节闪烁等问题,从而整体提升超分辨率视频的视觉质量与观赏体验。
04
模型性能
从 Sync-C 和 Sync-D 指标能够看出,我们的方法成功达成了精准的唇形同步效果,人物口型与音频高度匹配,极大提升了视频的真实感。此外,Hallo2 所实现的较低 E-FID 指标,充分表明该模型生成的视频具备更为生动鲜活的表情,人物形象更加饱满且富有情感表现力,为视频内容增添了更多吸引力与感染力。
05
应用场景
Hallo2 具有极为广泛的应用场景,可广泛应用于各类需要生成人像动画的领域。在虚拟主播领域,能够为其生成实时动画,从而大幅提升直播与视频内容的吸引力;在视频会议方面,可为无法开启摄像头的用户生成虚拟形象,有效增强会议体验;于教育领域,有助于制作出生动形象的教育视频,有力提升学习兴趣与效率;在娱乐范畴内,可用于制作动画短片、电影特效等丰富的娱乐内容;甚至在历史研究领域,能让历史人物“重现于世”,发表演讲并展开互动等。
其目标用户群体主要包括内容创作者、教育工作者和研究人员。内容创作者像视频制作者、虚拟主播、动画师等,他们可借助 Hallo2 创作出更具创意与吸引力的作品;教育工作者,诸如教师、在线教育平台等,能利用它提升教学效果;还有研究人员,例如人工智能研究者、计算机视觉专家等,以便开展相关领域的深入研究与探索。
作者:崔佳豪
----- END -----
wisemodel相关:
系统升级:
系列模型:
关于wisemodel更多
1
欢迎持续关注和支持
开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。
2
欢迎加盟wisemodel开源社区
始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn
3
欢迎投稿优质内容
欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。
4
关于wisemodel开源社区
始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。
向上滑动查看
热门跟贴