网易科技讯11月8日消息,据Theregister报道,牛津大学、谷歌旗下AI公司DeepMind以及加拿大高级研究所向机器学习学术大会(ICLR 2017)提交的论文称,它们开发的神经网络LipNet可以解读唇语的秘密,AI监控技术将变得更加先进。

研究人员称,通过分析视频中某人讲话的“时空视觉特征”,LipNet可以破译其正在说什么,比人类专业的唇语解读专家更称职,准确率高达93.4%。这是首个超越简单词汇分类的AI模型,可以使用句子级序列进行预测。

解读唇语是非常复杂的工作,即使对于损失了听觉的人来说,其平均准确率也仅为52.3%。研究人员称:“机器破译唇语有巨大的应用潜力,可被用于改善助听器、公共空间默写、掩盖对话、在嘈杂环境中语音识别、生物识别以及处理电影默片等。”

但是对于那些担心中央监控系统读取其秘密对话内容的人来说,还不必感到惊慌。研究人员承认,极为精确的唇语破译十分罕见。大多数情况都是有限的词汇被串联成句子,而且它们往往没有任何意义。

研究人员利用网格语料库(GRID corpus)训练和测试LipNet。这个语料库中有一系列音频和视频,包括34名演讲者每人讲的1000句话。这些句子都有“简单的语法结构”,包括指令(4)+ 颜色(4) + 介词(4) +字母(25) + 数字(10) +副词(4)。

括号中的数字代表每个类别可选单词的数量,这意味着它们共可以组成6.4万个句子。由于许多文件已经丢失或损坏,现在还有13名演讲者说出的32829个句子。

LipNet需要许多训练,才能达到如今的精准程度。在这些视频中,大约88%被用于训练LipNet,12%用于对其进行测试。LipNet专注于演讲者说话时的口型变化,并打破图像帧进行分析。随后,LipNet将这些信息输入神经网络中,并通过多层分析,从而按照发音解读出单词和句子。

距离处理2人之间真实的对话,LipNet还有很长的路要走。这套系统要求大量数据进行训练,以应对口音和语言变化。即使如此,如果你依然担心受到窃听,或许可戴上口罩!(小小)