在一个充斥着Photoshop、过滤器和社交媒体的时代,许多人已经习惯于看到被操纵的文字和图像。而如今的AI工具不仅可以写假评语、假新闻,甚至可以伪造假音频、假视频。当这种技术在几年后更加成熟,我们如何分辨跟现实毫无二致的“仿真内容”?

AI让你耳听

前段时间,“AI水军冲击点评网站”的新闻掀起了人工智能界的又一场波澜。根据芝加哥大学计算机科学教授赵燕斌等研究人员发布的《在线点评系统中的自动众包攻击和防御》,借助一种称为RNN(循环神经网络)的深度学习技术,AI可以生成逼真的虚假点评。

也许有人会说:“影响不大,我从来不看点评的。”但如果把它换成新闻呢?

1938年10月30日,美国哥伦比亚广播公司将科幻小说《世界大战》以模仿新闻的广播形式播出,这则“火星人入侵地球”的广播顿时在全美引起了恐慌。有些人买来枪械装备,准备保卫家园;有些人则变卖家当,逃入深山老林……这种新闻如今只会被当作笑谈,但如果更逼真更现实的假新闻呈现在眼前时,我们的表现恐怕不会比这群爷爷奶奶好上多少。

在这个社交媒体无比发达的时代,没有人能逃开信息流的轰炸。设想一下,如果下面几则新闻出现在推送页面,大部分人会有何反应?

“特朗普表达了解决气候问题的决心”

“希拉里称要遣返一切不合法移民”

“普京表示将在下次登月项目里亲自登月”

如果上面这些新闻出现在CNN等媒体上,观众肯定会怒斥:“假新闻!”但如果一个个1080P的现场演讲画面印证了这些新闻,我们还能立刻分辨出来它的真实性吗?可以肯定的是会有一小部分钻牛角尖的人会去核实调查,但大部分人会信以为真然后到处传播大新闻。

现在,让假新闻作坊们干劲十足的一项AI研究出现了。华盛顿大学的音视频转换AI团队在2017 SIGGRAPH (计算机图形和交互技术特别兴趣小组)会议上展示了一篇论文(点击阅读原文下载),这个研究解决了假新闻制作上的一个巨大难题:它可以将任何人的音视频合成剪辑为几无破绽的新视频。

他们在展示中以奥巴马为例,因为机器学习技术需要有可供学习的对象的大量视频。在这个具有高度真实性的视频当中,奥巴马在一个场景连续谈论了恐怖主义、就业和其他主题,宛如一场真实存在的演讲,而实际上是通过已有的音视频经过算法分析后合成的。

左为原视频,右为合成视频

通过对口型的视觉形式,系统将个人演讲的音频文件转换成现实的唇部动作,然后将其嫁接到另一个已有视频的头部。华盛顿大学艾伦计算机科学与工程学院助理教授Ira Kemelmacher - Shlizerman称:“这样的成果以前未被展示过,它有实际应用的潜力,如改善视频会议效果,打造更好的CGI演员,在未来还可以通过从音频中创造视觉效果而在虚拟现实中与历史人物对话。”

他还表示,在未来任何人都可以在聊天工具里收集视频来训练计算机模型。“如果你的网络环境不好,视频聊天往往会断断续续且画面质量很差,而音频对话由于占用带宽较少不会有这个问题。这种技术成熟后,使用音频即可实现高质量的视频对话。”

眼见为实?眼见也为虚

以前,音频到视频的转换过程需要在演播室拍摄多个人,他们反复重复着同样的句子,试图捕捉一个特定的声音如何与不同的唇形相关联,这一过程乏味、耗时且十分昂贵。相比之下,这一深度学习算法需要的匹配数据十分易得,以从互联网或其他地方找到采访、聊天、电影电视等各种“野生”的视频从而进行学习。

该团队没有直接从音频中合成最终视频,而是分两步处理了这个问题。第一步是训练一个神经网络来观看一个人的视频,并将不同的声音转换成基本的嘴巴形状。通过结合之前华盛顿大学图形和图像实验室团队的研究,用一种新的唇形合成技术,他们能够实际地叠加和混合这些嘴的形状和纹理。此外还需要一个较小的时间缓冲,使神经网络能够预测说话者接下来要说的内容。

目前,这一神经网络一次只能学习一个个体,这也意味着个人的声音和说话方式仍是独特的。论文合著者Steve Seitz表示:“我们保持着自觉,不把一个人的话塞进另一人的嘴里。”

但在人工智能和计算机图形技术的助力下,新的工具使这种“不自觉”的情况也成为可能:Adobe公司的Adobe Voco可以“PS”你的声音;谷歌Deepmind也在努力让电脑的声音更加真实;加拿大科技公司Lyrebird甚至可以利用AI合成宛如现实的“仿真对话”——这个人可以是特朗普、普京,乃至其他说句话就能上头条的全球性名人。

斯坦福大学的一个研究团队曾研发出一款名为Face2Face的工具,它结合了人工智能、机器视觉、动作捕捉与超高清表现等技术,使得个人可以操纵公众人物的视频片段,并实时将自己想要表述的话从名人口中说出。它通过捕捉模仿者的面部表情来进行工作,当模仿者在一个网络摄像头中说话时,这些动作被直接转换到原始视频中的人的脸上。

“哦,我刚刚对朝鲜宣战了。”

“下次登月我亲自上”

该研究小组通过对乔治·W·布什(George W Bush)、弗拉基米尔·普京(Vladimir Putin)和唐纳德·特朗普(Donald Trump)的视频短片展示了他们的技术。

这一工具本来只为了创建有趣的表情包,但随着目前Adobe Voco、Lyrebird等声音解析合成软件的兴起,也成为了假新闻作坊收藏库里的潜在武器。而领导人的声音可以从收音机、电视和网络视频中寻找并大量学习,从而变得更加可信。

AI带来虚假信息新时代?

不要低估假新闻的力量。最近因为彭博社关于Facebook的一篇盈利数据出错的报道,华尔街的AI量化交易员开始了自动交易,导致Facebook股票市值蒸发了220亿美元。

在以前,幕后推手传播假新闻也是需要资本的。对于小型假新闻作坊来说,过去可以利用的工具并不多,大多数人观众都可以毫不费力地发现其破绽。但有了人工智能与机器视觉方面的技术,我们是否会进入一个虚假新闻的新时代?

生活充斥着Photoshop、过滤器和社交媒体,许多人已经习惯于看到被操纵的文字和图像。如今的这些AI工具制作出来的视频还有一些瑕疵,我们也乐于将其当作有趣的消遣。但在几年后这种技术更加成熟的时候,我们如何分辨跟现实毫无二致的“仿真内容”?如果“特朗普向朝鲜宣战”的视频被当成事实在网络传播,会带来怎样的全球影响?

而且这些新技术也可能造就新的黑客工具:想想银行系统信心满满地使用最新的面部识别和语音生物识别系统来保障你的账户安全,但可能一段微信语音和视频就把你卖了……

谷歌和Facebook等科技公司之前就已经因为在假新闻的分发和传播领域发力不足而引发了不小的批评,如果在新闻生产这一环节也无法遏制假新闻的出现,那或许真的会使整个社会缺乏信任,甚至引发公众恐慌和社会分裂。而且当这种技术落入不那么“有道德”的人手中时,危机恐将进一步加剧。或许,我们终有一天会进入无法分辨事实与假新闻的时代

不过一些乐观主义者认为,技术可以用来生产假新闻,也可以用来分辨和消灭假新闻。Facebook和谷歌等科技公司的领导者已经公开承诺与知名第三方事实核查机构打击假新闻,并投入大量资源加强内容消费者的新闻素养教育。来自全球的900多名AI研究人员、黑客、记者和事实核查员参加了一个名为“假新闻挑战”(Fake News Challenge)的项目,共同挖掘AI在打击假新闻上的潜力。人工智能初创公司Joostware在骑士基金会与互联网档案馆的支持下,为事实检查员和记者建立了一个音频和视频声明验证工具。AI还可以用于建立信用和名誉系统,以及发现潜在的病毒性内容。

从技术创造的角度来说,或许还有把这个新时代火苗掐灭的希望。毕竟技术存在的一大意义,就是“解决没有这项技术前不存在的问题”。

本文为未来图灵(futureturing)原创文章,转载请申请授权并注明来源。

编译:邵琦