本文刊发于《现代电影技术》2024年第8期
专家点评
角色动画可赋予电影虚拟角色生动的表现力和独特的视觉风格。在传统角色动画制作中,动画师需要利用动作捕捉技术结合手动调整来设计角色每帧动作,不仅耗时费力、效率低下,且很难保证动作风格的一致性。随着人工智能深度学习技术的发展与应用,研究人员开始探索如何利用深度神经网络自动生成和优化角色动画,辅助制作效率和呈现效果的提升。其中,基于运动细节注意力的风格化角色动画技术是一种结合计算机视觉(CV)、深度学习和动画艺术的前沿方法,该方法可协助动画师生成具有独特风格的角色动画。《基于运动细节注意力的风格化角色动画生成系统》一文针对角色动画的自动风格化生成,提出了一种基于运动细节注意力(MD⁃ATN)模块的创新风格化运动生成系统,该系统在整合运动浅层特征和深层特征的同时,着重考虑了动作细节特征的损失特性,实现了风格化角色动画的高质量生成。随着深度学习技术发展和模型计算效率提高,角色动画风格化技术必将在多风格融合、实时风格化和风格化定制等多个方向实现更多突破。可以预见,未来风格化角色动画技术将在影视、游戏和虚拟现实(VR)等领域得到更加广泛和深入的应用,进而推动影视动画艺术与现代智能科技的深度融合。
——周令非
中国电影科学技术研究所
(中央宣传部电影技术质量检测所)
高级工程师
作 者 简 介
周凡颖
上海大学上海电影学院2021级硕士研究生,主要研究方向:运动风格迁移、计算机动画。
上海大学上海美术学院2020级大学本科,主要研究方向:3D场景理解、图像美学估计。
范艺严
翟承硕
上海大学上海电影学院2022级硕士研究生,主要研究方向:数字人。
上海大学上海电影学院教授,上海电影特效工程技术研究中心副主任,主要研究方向:数字影视技术、计算机图形学。
丁友东
摘要
运动捕捉技术在电影产业中的应用极大提升了角色动作的逼真度,而运动风格迁移技术则进一步拓展了这一领域的可能性。运动风格迁移能够将特定情绪、年龄、状态等风格特征迁移至现有的运动捕捉内容中。本文提出一种创新的基于运动细节注意力(MD⁃ATN)模块的风格化运动生成系统,旨在为动画电影的角色运动风格迁移提供一种高效、直观的解决方案。MD⁃ATN模块整合了运动的浅层和深层特征,增加了动作细节,从而生成表现力丰富的风格化运动。实验结果表明,该系统在保持运动内容一致性的同时,迁移了指定的运动风格,为动画电影的角色动画制作提供了新的技术手段和创意空间,提升了创作效率。
关键词
计算机动画;角色动画;运动合成;运动风格迁移;生成模型
1引言
在动画电影制作领域,角色动作和表现是叙事和情感传达的核心。 运动捕捉技术的应用极大地丰富了动画角色的表演细节,提高了制作效率。 然而,随着观众对个性化和多样化动画体验需求的日益增长,传统的运动捕捉技术面临着新的挑战。 为了创造出更具个性化和艺术性的角色动作,动画电影产业迫切需要一种能够灵活转换和融合不同运动风格的技术。 运动风格迁移技术满足了这一需求,能将角色情绪、状态等运动风格迁移至特定的运动捕捉内容上 [1] 。 该技术不仅能保留原始动作细节,还能赋予角色全新的表现形式,为动画电影的角色设计和表演创作提供更广阔的创意空间,同时也为电影制作带来效率和成本上的优势。
然而,现有运动风格迁移方法在保留运动特征细节方面仍存在一定局限性。首先,在运动风格的特征空间中,通常使用全局方法计算特征均值和方差,这导致局部细节在很大程度上被忽略。第二,尽管一些方法[2]使用注意力机制来捕获局部风格特征,但该风格特征通常源于更深层次的特征,导致低层次细节特征被忽略。第三,现有方法只是简单将重新加权的风格特征融合到内容特征中,未能很好地考虑特征分布。以上原因导致现有方法生成的运动缺乏细节,不适用于电影制作领域。
针对上述问题,本文提出了一个新的风格化角色动画生成系统。该系统包含一个具有细节感知注意的新模块,称为运动细节注意力(Motion Details Attention, MD⁃ATN)模块。同时,本文设计了一种新的基于MD⁃ATN模块的动作细节特征损失优化目标。如图1所示,MD⁃ATN模块使用注意力机制和归一化处理运动的全局和局部特征,从风格和内容的浅层和深层特征获得嵌入特征,因此网络能够更加精准地控制和调整角色动作的风格特征。这种对细节的关注使得生成的风格化运动更加丰富和逼真,更好地适应了动画电影制作对高质量动态表现的要求。通过在Xia数据集[3]和Bandai⁃Namco⁃Research⁃ Motion数据集[4]进行实验验证,本文方法在识别精度和弗雷歇运动距离(Fréchet Motion Distance, FMD)评分上均取得较好表现,证明了其在动画电影角色风格迁移任务中的先进性和有效性。
图1 MD⁃ATN模块示意图
2相关研究
2.1 图像风格迁移
随着深度学习的发展,Gatys等[5]提出一种基于卷积神经网络(CNN)的高效参数化纹理建模方法。之后,Ulyanov等[6]提出实例归一化(IN),其通过训练后的网络将任意内容图像的风格修改为单个指定的目标风格。Huang等[7]扩展了Ulyanov的想法,通过自适应实例归一化(AdaIN)将不同的风格统计信息注入同一网络中。AdaIN调整内容输入的均值和方差以匹配风格输入的均值和方差,并通过传递特征统计信息有效地将内容和风格结合起来,最终生成风格化图像。Park等[8]提出的SANet考虑了局部风格,其从风格和内容特征图中计算注意力分数并调整风格特征,将注意力输出整合至内容特征中。Liu等[9]受AdaIN和SANet的启发,提出了自适应注意力归一化(AdaAttN)模块,该模块考虑了具有注意力机制的浅层和深层特征,并基于每个点自适应地传递特征分布,因此可更好地为图像生成高质量的风格化结果。受AdaAttN思想启发,本文在运动风格迁移中设计了MD⁃ATN模块以获取运动风格的全局和局部特征。
2.2 运动风格迁移
基于深度学习的方法大大提高了风格化运动的质量和生成速度。基于Gram矩阵[5],Holden等[10]在潜在空间中编辑运动,实现了运动风格的迁移。Dong等[11]提出一个基于CycleGAN的新框架,用于将成年人的动作捕捉数据转换为儿童风格的动作。Aberman等[12]提出的框架从带有风格标签的不成对运动数据集中学习。Park等[13]构建时空图模拟运动片段,让网络学习关节之间的空间关系。Tao等[14]提出一种实时风格化运动的生成方法,通过编码器-递归-解码器结构和一种结合特征注意和时间注意的新判别器完成了风格化运动的生成。Jang等[2]聚焦于人体局部的运动风格迁移,允许对角色的某些身体部位进行风格编辑。最近,Findlay等[15]和Chang等[16]使用去噪扩散概率模型(DDPM)以合成风格化的人体运动。
在上述使用归一化模块的方法[2,12,13]中,AdaIN仅考虑全局风格分布,操作内容特征使其特征分布与风格特征一致。而Jang等[2]提出的BP⁃Net模块虽然在局部风格化中发挥了作用,但其未能探索浅层特征且未考虑局部特征统计。相较而言,本文方法关注输入运动的浅层和深层特征,通过MD⁃ATN模块提取风格特征,在风格迁移和内容保存间取得了更好的平衡,能生成更具细节的风格化运动,更适合应用于动画电影制作领域。
3本文方法
3.1 网络概述
图2 本文网络结构图
3.2 运动细节注意力(MD⁃ATN)
图3 MD⁃ATN模块框架图
3.3 动作细节特征损失
3.4 训练项
4实验与结果
4.1 评估指标
本文使用弗雷歇运动距离(FMD)以及内容和风格的识别准确度定量评估网络质量。FMD测量运动特征向量间距离,FMD越低代表生成的运动质量和多样性越高。此外,本文训练了一个动作内容和风格的识别网络,通过该网络可得运动的内容识别准确率(Content Recognition Accuracy, CRA)和风格识别准确率(Style Recognition Accuracy, SRA),文中的准确率代表内容识别准确率与风格识别准确率的平均值,其用于衡量风格迁移的质量和内容一致性,值越高代表识别准确率越高。
4.2 定量比较
本文方法与Jang等[2]、Aberman等[12]和Park等[13]的方法比较后的定量结果如表1所示,结果显示本文方法取得了较好表现的FMD,即由本文方法生成的风格化运动具有较高质量。值得一提的是,Jang等[2]的方法取得最好FMD的原因在于该方法更关注生成运动的多样性,能生成各种组合的风格化运动,然而此方法会过度迁移提供风格的运动中的内容特征,导致生成不自然的运动,此现象将在定性比较结果中展示。此外,本文方法取得了最高的准确率,这表明本文方法可很好地保持运动的内容特征和风格特征,这有助于减少在电影制作中对生成的运动进行编辑的时间成本。
表1 本文方法与Jang等[2]、Aberman等[12]和Park等[13]的定量对比结果
4.3 定性比较
本文方法与Jang等[2]和Park等[13]的方法定性比较结果如图4所示。为了使结果更直观,本文对BVH骨架进行了蒙皮处理,这样不仅展示了骨架的动态变化,还更好地呈现了风格迁移在动画角色上的应用。图4中红框标记出了与本文结果相比,其他方法在内容特征保留和风格特征保留方面的不足之处。尽管Park等[13]的方法在风格迁移方面取得了一定成效,但在保留风格局部特征方面存在局限,且有时无法维持内容一致性;虽然Jang等[2]等的方法在一定程度上保留了风格的局部特征,却倾向于过度迁移风格运动中的内容特征,这可能归因于其BP⁃Net模块未能充分捕捉浅层特征。经过对比,本文方法保留了最多的局部特征,并在内容特征和风格特征间取得了良好平衡,能产生更加和谐且视觉效果更好的结果。
图4 本文方法与Jang等[2]和Park等[13]的定性对比结果
4.4 消融实验
本文通过消融实验验证了MD⁃ATN模块与动作细节特征损失项对网络的作用,结果如表2所示。其中,FMD数值越低,生成的运动质量越高;CRA数值越高,生成的运动具有更好的内容一致性;SRA的数值越高,生成的运动具有更好的风格一致性。
表2 消融实验结果
(1)MD⁃ATN的作用。AdaIN[7]可提取风格的全局特征,而SANet[8]更关注风格的局部特征。因此,本文用AdaIN和AdaIN与SANet模块相结合的方式替换MD⁃ATN模块,以验证其在本文网络中的效果。结果表明,AdaIN在风格迁移方面非常有效,但它忽略了风格的局部特征。此外,具有AdaIN与SANet模块的网络取得了较差的FMD、CRA和SRA,这说明不能通过简单结合的方式同时获取全局特征与局部特征,而需通过一个统一模块达到该目的。相比之下,采用MD⁃ATN模块的网络生成的运动取得了更好的FMD、CRA和SRA,这表明在运动风格迁移中,获取网络的浅层和深层信息以及考虑风格的全局特征和局部特征是有效的。
(2)动作细节特征损失Lmdf的作用。本文通过从损失项中移除Lmdf来分析其对风格化运动结果的影响。结果显示,没有动作细节特征损失的网络获得了更差的FMD,这表明没有Lmdf的网络无法更好地学习从风格编码器E和MD⁃ATN模块中提取的风格特征,Lmdf项对于生成更真实且具有细节的运动非常重要。
4.5 风格插值
本文通过风格插值证明模型的泛化能力。图5(a)展示了步行内容中使用不同权重的大摇大摆风格的迁移结果;图5(b)展示了对于相同运动内容,在沮丧和童真两种风格间插值的迁移结果。由图5可知,风格插值使得风格化运动的生成更加可控,可帮助电影制作者或动画师根据需求调整所需风格的权重,提高电影制作的效率。该过程在本文设计的风格化动画生成系统中尤为重要。
图5 风格插值迁移结果
5风格化角色动画生成系统研发
5.1 系统开发环境
本系统使用Python作为主要编程语言,利用其丰富的库以实现快速开发;系统后端使用了第3章提出的基于运动细节注意力的风格化运动迁移框架;前端界面则通过PyQt5实现,确保了跨平台的兼容性和用户交互的流畅性;系统部署于英伟达(NVIDIA)GeForce RTX 3090 GPU(24GB)上。
5.2 风格化角色动画生成系统流程
本文系统旨在为动画师工作任务提供便利,其流程图如图6所示。风格化动画生成系统的工作流程是用户友好且直观的。在操作流程中,用户可选择目标运动和作为参考的风格运动,并通过滑动条调整风格化程度,从而精确控制风格迁移效果。系统提供预览功能,使用户能够即时查看合成结果,并在满意后导出所需的BVH格式动画片段。这一流程不仅提升了工作效率,也使得创作过程更加直观。
图6 风格化角色动画生成系统流程图
5.3 风格化角色动画生成系统设计
系统采用第3章设计的网络,集成MD⁃ATN模块和风格化特征损失优化算法,确保了风格迁移的质量和动画的细节表现。系统分为单一风格迁移和多风格迁移两个主要功能模块,以适应不同应用场景和用户需求。其中,单一风格迁移模块专注于将一种特定风格应用到运动内容上,适用于需要特定风格化效果的场景;多风格迁移模块允许用户混合多种风格特征,创造出独特的、复合的风格化动画,适合探索创新的动画效果。系统的两个模块界面如图7所示,它们都为用户提供了如下步骤:(1)上传运动内容数据:用户通过界面上传BVH格式的运动捕捉数据,作为动画生成的内容基础;(2)上传风格运动数据:用户上传定义风格特征的BVH格式运动数据,用于指导风格迁移过程;(3)调整风格化程度:系统提供滑动条,允许用户调整风格迁移的程度,从而在保留原始动作特征的同时,控制风格特征的显著性;(4)生成预览:用户点击“生成结果”按钮后,系统将实时渲染风格化动画,并在界面上提供预览;(5)导出数据:如果用户对预览结果满意,可以点击“导出数据”按钮,将风格化后的动画保存为BVH文件,以便后续的编辑或使用。
图7 风格化角色动画生成系统界面
6 结语
本文提出了一种新的运动风格迁移模块MD⁃ATN,通过调整风格特征的加权均值和方差来转换特征统计量,可更好地提取运动风格的全局和局部特征,并将其应用于输出运动。实验结果表明,该方法能够生成高质量的风格化运动结果,保证了一致的全局风格和良好的局部细节,使输出结果更具表现力。本文开发了一个完整的风格化动画生成系统,为动画电影制作提供了一个高效、直观的工作流程,有助于降低动画电影制作成本。随着人工智能技术的持续进步,运动风格迁移技术将更广泛地应用于电影制作,进一步辅助行业从业者拓展创意边界,创造出更加生动的CGI角色,推动动画艺术的发展。
注释、参考文献
(向下滑动阅读)
[1] Tilmanne J, Moinet A, Dutoit T. Stylistic gait synthesis based on hidden Markov models[J/OL].(2012⁃03⁃26)[2024⁃08⁃12].https://asp-eurasipjournals.springeropen.com/articles/10.1186/1687-6180-2012-72#citeas.
[2] Jang D K, Park S, Lee S H. Motion puzzle: Arbitrary motion style transfer by body part[J]. ACM Transactions on Graphics (TOG), 2022, 41(3):1⁃16.
[3] Xia S, Wang C, Chai J, et al. Realtime style transfer for unlabeled heterogeneous human motion[J]. ACM Transactions on Graphics (TOG), 2015, 34(4):1⁃10.
[4] Kobayashi M, Liao C C, Inoue K, et al. Motion Capture Dataset for Practical Use of AI⁃based Motion Editing and Stylization[EB/OL]. (2023⁃07⁃09)[2024⁃07⁃11]. https://arxiv.org/abs/2306.08861.
[5] Gatys L A, Ecker A S, Bethge M. Image style transfer using convolutional neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 2414⁃2423.
[6] Ulyanov D, Vedaldi A, Lempitsky V. Instance normalization: The missing ingredient for fast stylization[EB/OL]. (2017⁃11⁃06)[2024⁃07⁃11]. https://arxiv.org/abs/1607.08022.
[7] Huang X, Liu M Y, Belongie S, et al. Multimodal unsupervised image⁃to⁃image translation[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 172⁃189.
[8] Park D Y, Lee K H. Arbitrary style transfer with style⁃attentional networks[C]//proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 5880⁃5888.
[9] Liu S, Lin T, He D, et al. Adaattn: Revisit attention mechanism in arbitrary neural style transfer[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 6649⁃6658.
[10] Holden D, Saito J, Komura T. A deep learning framework for character motion synthesis and editing[J]. ACM Transactions on Graphics (TOG), 2016, 35(4):1⁃11.
[11] Dong Y, Aristidou A, Shamir A, et al. Adult2child: Motion style transfer using cyclegans[C]//Proceedings of the 13th ACM SIGGRAPH Conference on Motion, Interaction and Games, 2020: 1⁃11.
[12] Aberman K, Weng Y, Lischinski D, et al. Unpaired motion style transfer from video to animation[J]. ACM Transactions on Graphics (TOG), 2020, 39(4):64⁃1.
[13] Park S, Jang D K, Lee S H. Diverse motion stylization for multiple style domains via spatial⁃temporal graph⁃based generative model[J]. Proceedings of the ACM on Computer Graphics and Interactive Techniques, 2021, 4(3): 1⁃17.
[14] Tao T, Zhan X, Chen Z, et al. Style⁃ERD: Responsive and coherent online motion style transfer[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 6593⁃6603.
[15] Findlay E J C, Zhang H, Chang Z, et al. Denoising Diffusion Probabilistic Models for Styled Walking Synthesi[EB/OL]. (2022⁃09⁃29)[2024⁃07⁃11]. https://arxiv.org/abs/2209.14828.
[16] Chang Z, Findlay E J C, Zhang H, et al. Unifying human motion synthesis and style transfer with denoising diffusion probabilistic models[EB/OL]. (2022⁃12⁃16)[2024⁃07⁃11]. https://arxiv.org/abs/2212.08526.
[17] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Proceedings of Advances in Neural Information Processing Systems (NIPS), 2014: 2672⁃2680.
[18] Yan S, Xiong Y, Lin D. Spatial temporal graph convolutional networks for skeleton⁃based action recognition[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2018, 32(1).
[19] Zhu J Y, Park T, Isola P, et al. Unpaired image⁃to⁃image translation using cycle⁃consistent adversarial networks[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 2223⁃2232.
[20] Yang D, Hong S, Jang Y, et al. Diversity⁃sensitive conditional generative adversarial networks[EB/OL]. (2019⁃01⁃25)[2024⁃07⁃11]. https://arxiv.org/abs/1901.09024.
主管单位:国家电影局
主办单位:电影技术质量检测所
标准国际刊号:ISSN 1673-3215
国内统一刊号:CN 11-5336/TB
投稿系统:ampt.crifst.ac.cn
官方网站:www.crifst.ac.cn
期刊发行:010-63245081
热门跟贴