对口型不再是难事，美国总统讲话视频也能被PS|合成视频|奥巴马|照片|视频

原标题：The Technology That Will Make It Impossible for You to Believe What You See

网易科技讯 7月18日消息，《大西洋月刊》（The Atlantic）撰文称，利用华盛顿大学研究人员开发的技术，你可以做出让肉眼无法分辨真伪的对口型视频，让人觉得视频中的人真的就在说那些话，但实际上并不是。该技术会让人觉得无法相信自己的眼睛。

以下是文章主要内容：

总统很恼火。

让他恼火的是媒体，也是他们所使用的技术。电子媒体改变了一切。人们一天到晚都盯着屏幕看。“我从未听说过或者看见过如此离谱、恶毒的扭曲性报道。”他在新闻发布会上说道。

1973年10月，理查德·尼克松（Richard Nixon）向聚集的记者们表示，电视新闻的时代正在动摇美国人的信心。当时他还不知道自己的总统生涯将迎来灾难性的结局。1974年8月尼克松要宣布辞职的时候，他直接对着一台电视摄像机宣布。这段录像即便是在近半个世纪之后的今天也依然令人震撼——主要是因为那个历史性的时刻，还因为电视直播的威力。

即使是在互联网主导的信息时代，视频也仍然是十分引人注意的媒介形式。特别是在实时新闻多到眼花缭乱的时代，让人可以通过眼睛看到实况画面的视频很有优势。

又或者说，过往就已经是这样。

视频的Photoshop式技术

在公众对新闻媒体机构越发不信任之时，进一步模糊人们真伪分辨能力的技术在迅速发展。用在视频上的令人信服的Photoshop式技术已经到来，其带来的结果既令人印象深刻，又令人恐惧。

计算机科学家如今能够制造逼真的嘴唇同步视频——表面上看，就是让任何一个人的声音对上另一个人的口型。

看到上面的那个GIF动图了吗？实际上动图里并不是巴拉克·奥巴马（Barack Obama）在说话。它是一个针对奥巴马的合成视频，它做得让人感觉就是他在说话，但实际上那些话来自一个音频文件。

那段短片出自华盛顿大学的研究人员之手，他们开发了一个算法来获取某人说话的音频，然后将该音频转变成一个某人在说那些话的逼真视频。在下面的视频中，你可以并排对比一下原创的视频（确实是奥巴马本人的评论）和人工生成的视频。

插入视频

奥巴马是非常理想的实验对象，因为网络上他做演讲的现成高质量视频短片简直多不胜数。为了做出逼真的嘴型效果，研究人员得输入大量的奥巴马演讲例子——在比较基本的嘴型上叠加那些数据。研究人员使用一种名为递归神经网络的人工智能技术来根据音频合成嘴型。（这种模拟人脑打造的系统能够吸收大量的数据和发现模式。递归神经网络还被用于脸部识别和语音识别。）他们使用数以百万计的现有视频帧来训练他们的系统。最后，他们将影像合成技术应用于奥巴马的头部和躯干的真实影像，进而让整个合成影像变得更加平滑。

这些研究人员就这项技术撰写了一篇论文，他们计划在下个月举行的计算机图形和交互技术大会上介绍他们的研究成果。

该论文的合著者、华盛顿大学计算机科学与工程学院助理教授艾拉·凯梅尔马赫-席里泽曼（Ira Kemelmacher-Shlizerman）指出，“我们的理念在于，利用该项技术让人们能够更好地进行沟通交流。”她认为，该技术可在视频会议上大派用场——例如，与会者可通过音频生成逼真的视频，即便系统的带宽太低，不足以支持视频传输。最终，该技术可在虚拟现实和增强现实中用作一种远距传动形式，让出现在房间的个人虚拟形象看上去就像是真人一样，使得亲切的人际互动免受时空距离的限制。

“我们不只是在学习如何给Siri赋予一个说话的形象，或者将奥巴马的声音用于你的GPS导航，我们还在学习如何捕捉人的音容笑貌。”该研究论文的另一位合著者苏帕索恩·苏瓦扬纳科恩（Supasorn Suwajanakorn）说道。不出意外，数家大型科技公司已经注意到该项技术：三星、谷歌、Facebook和英特尔均已向该项研究提供资助。研究人员可能想要横跨人工智能、增强现实、机器人等领域。“我希望，我们能够研究这些人类特质，将它们转移到机器人上，使得它们变得更加栩栩如生。”苏瓦扬纳科恩说。

不过，该技术很显然可用于骗人。人们现在就已经经常被伪造的照片、社交媒体假冒账号以及其它的各种数字仿造品蒙骗。

想象一下，要是网上出现一个看似很真实的，总统在“说”些他实际上从未说过的话的视频，会引起多大的混乱。“我确实担心过这种问题。”凯梅尔马赫-席里泽曼坦言。但她坚称，总的来看利还是大于弊。“我认为这是一项技术突破。”

如何判断真伪

专家们有办法去判断视频是否通过这种技术伪造而成。由于研究人员还是依靠正当的视频片段来生成嘴唇同步视频的各个部分，鉴别出被用来做成捏造视频的那个原创视频是可行的。

“所以，通过创建网络视频数据库，我们能够通过搜索该数据库来检测伪造视频，看看是否有视频有着同样的头部和背景。”苏瓦扬纳科恩透露，“另一个可让你看出造假的地方是模糊的嘴巴和牙齿区域。这肉眼可能看不出来，但开发程序来比较要鉴别的视频和其余视频的嘴巴区域模糊性并不难，而且该程序会很好使。”

苏瓦扬纳科恩表示，如果要鉴别的视频是从多个不同的视频那里抽取了一个人两段或者以上的录音，该程序也能够派上用场。这些称得上有用的防护措施，但该技术在带来潜力的同时，还是带来了挑战。并不是每一个人都懂得如何寻找数据库和程序来对视频进行审查——又或者，很多人压根就没有想到要质疑一个看上去十分真实的视频。那些无意间分享错误的鉴别信息的人也很可能会加剧人们对专家的不信任。

“我的看法是，人们将会变得不相信视频，就像我们在知道Photoshop等工具的存在后不相信照片那样。”苏瓦扬纳科恩指出，“这可能好坏参半，我们必须继续去寻找更加可信的证据来源。”

但如果你连自己的眼睛都无法相信的话，何谈可信性呢？随着对现实的扭曲变得足够令人信服，分辨真伪谈何容易。（乐邦）