最AI画中仙——机器学习谱写未来|163

小易易念科技NeuralFLEX

这个星期，一段视频吸引了小编的注意，小编给大家也截了个Gif图：

右侧是大家熟悉的似笑非笑的蒙娜丽莎，左侧的三组动态视频，则惟妙惟肖地把蒙娜丽莎复活在我们眼前。以假乱真的面部表情、头部动作，还有说话语态，似乎让我们一同见证了当年在达芬奇眼前巧笑倩兮，美目盼兮的优雅女子。

也许你会说，这不就是以油画为素材做出来的动画吗。No, no, no……小编一开始也是这么想的，但是事情怎么会这么简单。

这组动态视频并不是电影特效人员通过CG图像建模制作的动画，而是AI算法工程师们借助机器学习训练计算机，仅从单幅《蒙娜丽莎》油画生成的动态会话头部模型（Talking head model，可以做出面部表情、头部活动，以及说话等行为）。小编心下一惊，不得了、不得了，赶快在网上找了找相关资料一探究竟。

面部是非常重要且复杂的交流通道，逼真的面部合成技术是计算机图形学（Computer Graphics，CG）以及计算机视觉（Computer Vision，CV）所关注的核心问题，也是难点之一。人脸的计算机模拟长期以来一直是计算机图形学以及人机交互领域中非常前沿的研究热点。而真实感人脸合成也常应用于电影电视、广告动画、电子游戏、远程视频会议、人机接口（HBI）、医疗美容、以及心理学、认知科学等诸多领域。

从《指环王》里的咕噜，到《猩球崛起》里的凯撒，再到今年的《阿丽塔》，影视领域的CG特效可以说是人像建模技术的先行者。但是影视领域所使用的“人脸建模”非常繁复，需要CG演员、视频剪辑师以及CG特效师借助表演捕捉、面部行为编码、三维图形建模、特效渲染等技术，花费大量的时间和成本才能实现。传说中，代表世界CG特效顶尖水平的维塔公司开动主机渲染视频的时候，它所在的小镇气温都会上升一度；而成本高昂的阿丽塔在制作时动用了3万台电脑，总计4.32亿机时。打个比方，如果网吧按3块一小时计费，就是12.96亿人民币。

2017年12月，一位名为“DeepFakes”的用户在Reddit上发布了他通过计算机深度学习将名人面孔投射到虚假视频上的成果。自此深度伪造技术以符合“弗洛伊德本能理论”的方式（咳咳，我们是开往幼儿园的正规车）闯入大众视野。如果你是第一次听说 DeepFake，可以点击下方的《复联外传》，亲自感受一下“黑湘玉”、“型Tony”、“李大Hulk”怎样毫无违和地融入同福客栈。

https://mobile.rr.tv/mission/#/share/video?id=2258487

Deepfake是一种基于“生成对抗性网络”（Generative Adversarial Networks，GAN）的深度学习图像生成模型。GAN的本质是两个神经网络以零和博弈（经常但不总是）的方式进行竞争学习：

生成网络“Generative network”（编辑器“generator”）从潜在空间中随机采样作为输入，尽量模仿训练集中的真实样本并生成输出候选项。判别网络“Discriminative network”（判别器“discriminator”）的输入则为真实样本或生成网络输出的候选项，其目的是评估并尽可能将生成网络的输出与真实样本区分开来。生成网络的训练目标是增加判别网络的错误率（生成多个新颖的候选项以“欺骗”判别网络判定候选项属于真实数据分布的一部分，而非合成影像）。两个网络相互对抗、不断调参，随着时间和学习的累计，判别网络最终无法判断生成网络输出结果的真伪，“伪造”图像和视频成功生成。借助GAN，Deepfake能够将现有图像和视频特征组合并叠加到源图像或视频上。其直观效果就是，将任一图片或视频中的人脸置换到其他图片或视频中的人身上（俗称AI换脸）。

相较于仰赖CG演员和特效师大量人工劳动的CG特效技术，机器学习驱动的DeepFake技术可以说是真实感人脸/人头建模领域的突破性成果。你只需要一个GPU和一些训练数据（上百张人物的照片或者视频），就能制作出足以以假乱真的合成真实感人像模型。

Deepfake技术的原创者并未署名，相关技术发展大量来自这届给力的发烧友们在论坛和网络上的贡献。例如Gaurav Oberoi在他的个人网站上对Deepfake做了详细的解释和Github代码分享：

https://goberoi.com/exploring-deepfakes-20c9947c22d9

相关中文编译可见：

https://36kr.com/p/5127279

其他代表性个人代码分享如：

https://github.com/goberoi/faceit

https://github.com/shaoanlu/faceswap-GAN

https://github.com/shaoanlu/faceswap-GAN/tree/master/notes

然而，尽管DeepFakes所呈现出的效果令人叫绝，但它仍然存在着劳动密集和运行低效的缺陷：DeepFakes算法只有在拥有大量目标人物图片和视频素材（300到2000张）作为训练数据的前提下才能达到相对理想的效果。Deepfake人脸训练也会消耗大量时间和财力。一般的换脸效果大约需要耗时48小时的训练，而一个具备优秀真实感效果的换脸则需要大约72小时的训练才能达到，并且GPU的租用也会产生大量费用。

这一次，来自三星人工智能中心（战斗民族分部Samsung AI Center, Moscow）和俄罗斯斯科尔科沃科技研究所（Skolkovo Institute of Science and Technology）的研究人员在生成真实感会话头部模型（Realistic talking head modeling）的系统设计和算法优化上可谓登峰造极——学习新的头部模型仅需要少量训练素材（8帧图像甚的至是单帧图像）和少量训练时间。

研究人员将这一系统命名为“少镜头学习”（Few-shot learning）。原文Few-Shot Adversarial Learning of Realistic Neural Talking Head Models参见：

https://arxiv.org/abs/1905.08233

示例中的模型是从一个人物的8帧训练图片中学习到的。一旦新的会话头部模型被机器学习，它可以被面部动态地标的位置所驱动。动态面部地标（Face landmarks，包含头部姿势、角度变化、面部表情和会话口型等）则是通过在同一人物（或者其他人物）的其他视频（驱动序列Driving Sequence）上运行面部地标追踪获取的。可以说，机器学习的新头部模型充当了该人物的真实感替身。少镜头学习系统可以从不同帧数（8帧、16帧）的训练样本中学习，即便是单帧训练样本也是可行的。此外，该系统即使对于没有出现在训练样例中的新视角也能很好地学习并生成。当然，帧数增加会带给头部模型更高的真实感和特征保留度。

研究人员在元学习框架中引入了对抗性精细调整：在获取生成网络和判别网络的初始状态后应用对抗性精调进行少镜头学习。元学习在一个庞大的视频数据集（VoxCeleb2）上执行，并训练出三个神经网络：嵌入式网络（Embedded Network）将与面部地标串联的画面映射到包含相对姿势信息独立的向量中。这些向量再被用于初始化适应生成网络集合的参数，并将面部地标映射到合成视频中。最后，判别网络会评估生成图像的真实性，姿势以及特征保留度。每个训练视频中都会设置一个可训练嵌入向量，用来确保更好的特征保留度。

在元学习之后，就可以开始对“替身”的编辑器和判别器进行精调。尽管生成网络和判别网络包含数百万个参数，但是元学习阶段良好的初始化工作（针对个体特异性），有效保证了后期从少量图像（8帧或者16帧）着手进行精调。在对替身进行完全精调的过程中，研究人员使用嵌入式网络的输出结果对编辑器的自适应参数和嵌入判别器内的视频进行了初始化。之后，又使用与元学习阶段相同的对抗目标，在可用的少量图像上训练编辑器和判别器。对抗性精调对于改善真实性和特征匹配非常重要。在示例中，特征匹配方面的改进尤其明显。此外，在有更大图像集进行精调训练的条件下，对抗性精调可以获得更加逼真的模型。

为了进一步推广泛化这一系统，研究人员将目光投放到了名人照片（爱因斯坦，达利）和名画这类定格画面上。在每个学习案例中，研究人员会先训练机器自动从Voxcele2数据集中搜索到适合动态化特定肖像的人脸面部地标。再通过元学习和精调，为定格肖像生成相应动画。在某些案例中，模型对于地标的几何学特征相当敏感。这也就使我们看到，用不同人物的面部地标驱动生成的Mona Lisa会话形象（视频）明显具备不同的性格特征。

从理论上说学习系统拥有的训练样本越多越好，但少镜头学习研发团队设计的这套高效学习系统只需要少量甚至单幅画面即可完成初始头像与模拟头像的匹配，生成极具表现力（多角度活动、说话和表情等行为）的动态人物头像，且效果与其他需要大量样本的训练系统生成的头部模型相比并无太大差异。

当然，少镜头学习的算法也并非尽善尽美，眼尖的人还是能发现模拟画面或多或少存在加工痕迹，而且由于人体信息的复杂性，目前的人脸模型学习系统也只适用于生成人体头部或者上半身图像。研究人员也提到，面部地标的调试、地标追踪与训练系统的整合将会是未来进一步优化工作的重点。

忧虑

在各种美图工具大行其道的“修图”时代，我们在意的还是“图片数字化处理效果否逼真”。而现今由机器学习驱动的“AI”时代，推翻认知的还有“影像资料是否是消息的准确来源？”在AI技术的挑战下，“眼见为实”这样的成语也面临即将作古的尴尬。

随着Deepfake伴生的相关争议还包括数字傀儡、政治阴谋、非法诈骗、社交平台个人影像资料盗用、deepfake病毒等等。但另一方面，正是因为技术可能被居心不良的人滥用，我们就更应该认识新技术的原理及其可能对未来生活带来的影响（形成新的常识），从而在尚未发生重大损失之前，在法律法规上划出明确的技术使用边界，并研发防范措施，制定危机应对方案。

01 法律法规防范

deepfake在2017年12月被主板上的一篇文章首次曝光后，一些换脸色情视频的存在促使Reddit关闭了r/deepfakes相关讨论贴。Discord、Gfycat、Pornhub和Twitter等其他在线服务也禁止以deepfake关键词搜索。谷歌也更新了它的策略，允许请求屏蔽与“非自愿合成色情图像”相关的搜索引擎结果。

4月20日，中国十三届全国人大常委会第十次会议开始审议民法典人格权编草案二审稿。草案提出，民法应禁止任何人以基于人工智能（AI）的“深度伪造”（deepfake）技术替换网络视频中的人物面部，以保护肖像权。此次提议的“民法典人格权编草案二审稿”建议规定：任何组织或者个人不得以丑化、污损，或者利用信息技术手段伪造等方式侵害他人的肖像权。

各国政府和高科技公司的一系列的快速响应，让我们看到了一定程度上的信息安全保障。当然，在树立AI时代个人信息安全意识之外，也有很多重要的工作要做。

02 解AI还须系AI人

Deepfake的本质是AI算法，那么检测和侦查伪造视频/图片的工作，也可以交付于Deepfake “打假算法”，及依托于AI算法的防“deepfake病毒”软件。例如，阿姆斯特丹的创业公司Deeptrace，就已经开始提供相关deepfake检测技术服务。

03 弯道超车

机器学习算法道路千万条，有时候还真不能一条路走到黑。今年4月，比利时鲁汶大学（KU Leuven）致力于“愚弄”AI系统对抗性攻击算法（Adversarial attack）的研究，简直应该提名2019年的搞笑诺贝尔奖：只需一张打印出来的图案（“对抗性补丁”，adversarial patch）加持，我们就可以明目张胆地在先进人体检测系统（Person detector）眼皮子底下大大方方地“隐身”了。

想看论文的，可以点击链接：

https://arxiv.org/abs/1904.08653

小哥哥们还分享了源代码：

https://gitlab.com/EAVISE/adversarial-yolo

看到这里，小编填不满的脑洞开始琢磨，今年下半年的淘宝爆款T恤是不是会变成酱紫滴：

T恤当然是闲扯，毕竟我们产品范围目前还不包括T恤。重点是变换底层逻辑，找到技术突破点。好在目前的对抗性学习生成的Deepfake影像仅限于头部和上半身，我们还有足够的时间研究新的反制/攻击深度伪造的技术。

希冀

任何技术都可能被别有用心之人利用来做坏事，这是不可避免的。我们不能因为人的问题否定知识和技术本身的价值，而应当更多地思考该怎样积极正面地应用并使之服务于社会。作为社会中流砥柱的70/80/90后，大家应该还记得Uncle Ben说过：“With great power comes great responsibilities”。

01 深远影响

打开脑洞幻想一下生成对抗网络人脸建模的泛化应用又可以有哪些呢。

计算机图像优化：图像优化（优化低像素照片、修复老照片）、图形预测（修复缺失像素，预测图形变化趋势）；

交互式制图：通过人-机交互，计算机学习理解人类笔触和意图，并优化绘图效果。适用于人机绘画创作、儿童绘画学习、帕金森综合征患者、及上肢功能障碍人士康复训练；

影视制作：5G时代私人定制影视。想到如何在影视中应用人脸置换技术，小编第一个想到的就是把“西门大妈”的脸换成刘亦菲小仙女，从而彻底擦除童年阴影。想想真是开心；

隐身式网络社交：社交应用中表情丰富的人像头型可以增强用户通信表达能力；

还有诸如个性化远程教育、文字-图像翻译、名人广告代理、VR购物、情感关怀、3D博物馆、考古遗迹复原、角色扮演游戏等等。

02 深度应用

其实，除了上述正经、不正经的应用，小编对近来在脑机接口以及神经科学领域对生成对抗网络的应用才是最关心的。

2018年，弗莱堡大学（University of Freiburg）的研究人员将GAN框架应用于人工脑电信号的生成，提出了EEG-GAN框架。通过一系列参数比较，EEG-GAN系统可以生成接近自然状态下的脑电数据，这为脑机接口研究中的数据增强、EEG超采样（EEG super-sampling）、或者损坏数据恢复等需求开辟了新的技术路径。而生成特定类和/或具有特定属性信号的可能性，则可能为研究大脑信号的底层结构打开新的思路。

尽管意念读取仍然是现阶段无法完全实现的目标，但2017年意大利卡塔尼亚大学（University of Catania）的研究人员结合长短时记忆（LSTM）递归神经网络（RNN）从原始EEG信号（浏览不同类型图片）中提取视觉-类-区分描述器（视觉内容描述性表征），并结合条件式GAN从这些描述器生成图片，产出与目标类型匹配（可从语义上描述目标）的真实且多样的图片，证明了在GAN辅助下通过EEG信号描绘视觉信息的可行性。

2018年，悉尼大学电气与信息工程学院的Omid Kavehei团队，在应用卷积神经网络（CNN）预测癫痫的基础上，探索了通过深度卷积生成对抗网络提高癫痫预测准确性的可行性。这种无监督训练不需要对EEG数据进行标记，更便于在实时EEG信号记录过程中执行，并且不需要对每个被试进行特征工程工作。这种算法优化对于设计低功耗癫痫预警设备具有潜在价值。

2019年年初，澳大利亚昆士兰科技大学Tharindu Fernando团队，受神经记忆模型的启发，设计了记忆增强半监督生成对抗网络（Memory augmented Semi Supervised Generative Adversarial Network，MSS-GAN）系统用以模拟和预测网球运动员的击球位置。通过学习网球运动员的行为数据（录影），MSS-GAN能够有效预测选手下一次击球位置和击球类型，并进一步帮助研究人员了解选手意图、分析其反应策略，实力和缺陷。MSS-GAN系统的直接应用，有如高效教学练习和智能自动播放摄像系统设计（可以自动预测击球位置并快速转换镜头）。

综合上述研究，我们可以看到深度神经网络在脑科学研究中的重要作用和巨大潜力。

随着AlphaGo、微软小冰、首个人类公民身份机器人Sophia的亮相，小编们逐渐清醒地意识到，人工智能的迅猛发展将会深刻改变小编们所习以为常的人类社会和世界的面貌。类脑智能的理论、技术和应用将会是未来各国发展的战略核心，而AI领域的专利技术与发表论文甚至可以说是提升未来综合国力的支点。

从之前的例子我们可以看出，人工智能的发展正在帮助认知神经科学研究人员发掘更好的数据处理解析工具。而生物大脑计算的底层原理，也始终在推动深度学习的发展。如 CNN（卷积神经网路Convolutional neural network）的发展直接借用了生物神经网络层级编码的原理，并根据计算的需求重新设定细节。小编们相信，神经生物学、认知神经科学、信号处理、计算神经科学等学科的交叉合作，将是未来从根本上解决脑科学与类脑智能前沿问题的有效途径。作为专注于类脑智能及认知神经科学的科技公司，易念科技将秉着对脑机接口的热诚，在潜心钻研学习的基础上，撸起袖子努力研发，力争成为脑机接口领域的先锋团队。

为了方便对机器学习或者DeepFake摩拳擦掌的小伙伴们，小编找到了一些学习资料以供参考。PS. AI时代，技术更迭昼夜不停。要保持良好的学习习惯，就要有源于兴趣的自发、对抗阻挠的坚毅，与时刻警醒的理性。预祝大家在学习AI技术的道路上，越走越宽广。

机器学习知名课程：

斯坦福大学Andrew Yan-Tak Ng （吴恩达）的机器学习课程对于初学者入门而言，是非常有帮助的，最具代表性的是他最早在2003年开设的面向全球的公开课：

https://open.163.com/movie/2008/1/M/C/M6SGF6VB4_M6SGHFBMC.html

以及2010年在Coursera上开设的：

https://www.coursera.org/learn/machine-learning

循序渐进地学习，大家也能感受到Ng对待神经网络的态度变化。有博主（计算机的潜意识）分析这大概是Ng实践了深度学习的效果，认识到深度学习的基础——神经网络的重要性。

Ng后期有若干其他课程也都能在Coursera上找到：

https://www.coursera.org/courses?query=andrew%20ng

国立台湾大学林轩田教授的“机器学习基石上、下”：

https://www.coursera.org/learn/ntumlone-mathematicalfoundations

https://www.coursera.org/learn/ntumlone-algorithmicfoundations

END

微信扫一扫
关注该公众号

最AI画中仙——机器学习谱写未来

热搜

热门跟贴