全文共3618字,预计学习时长10分钟

打开网易新闻 查看精彩图片

图源:unsplash

1994年,笔者还在剑桥大学读研究生,我的老师是Steve Young和Tony Robinson,他们发明了世界上最好的语音识别系统。

然而,最初的几天里我就学到了,那是从Dragon Dictate早期版本中无法获得的。但老师们已经将其破解了。一台功能一般的计算机可以将连续的自然语音转换为文本,准确率约为95%,这项技术已经超越了所有人,除了那些训练最好的专业人员。

为什么语音识别直到最近几年才被广泛应用于日常生活中呢?这项技术更多是应用于工业。但作为日常使用的实时用户界面,例如与你的电脑对话,其速度慢得令人难以置信。

在20世纪90年代,笔者学习时读到关于逆向图灵测试的信息,其中阐述了原因之一。志愿者们认为他们是在和一台电脑对话,但实际上是由一个人在幕后输入答案。观察和随后的采访表明,在那个时候,人们只是不喜欢它。

笔者敢肯定,这是一种陌生感,在某种程度上有代际影响。我的孩子和电脑说话比和他说的多。然而,语音作为主要用户界面确实存在严重的问题:

· 隐私:你希望其他人听到你的搜索词和信息吗?

· 技术不成熟:它还没有完全成熟到走进一家拥挤的咖啡店说“嘿,Siri……”

· 基于时间:你不能扫描完整的二进制数字

当笔者离开大学开始工作时,我从语音识别工作中学到了一些东西,这对我来说很幸运,但对于那些仍然专注于听写的演示和讨论语音识别的人来说并不明显。

语音识别不是听写

笔者从事开发可扩展的数字媒体产品。除此之外还领导了BBC在线新闻的发展。2000年,我决定运用语音技术来解决媒体行业的问题,但我有所预感,人们仍然不喜欢和电脑说话。

所以在一家大型软件公司的资助下,我开发了一些关于将语音识别应用于录音语音的产品。这十分简单,因为同一组的另一家公司是我剑桥老师Tony Robinson创立的Soft Sound。

我对Tony的讲座很感兴趣,欣然接受了与他合作开发产品的机会。笔者成功地与世界上最好的系统竞争,但通过运用神经网络,使用了更少的内存和处理能力。从这个意义上说,我们超前了几十年,我们中的大多数人在21世纪10年代中期转向了神经网络。

笔者的团队采用了Soft Sound的语音识别算法,并将其与视频、文本和图像识别相结合,为电视、电影和广播档案创建搜索引擎。我们创造了各种各样酷炫的东西,比如编辑软件、通过剪切和粘贴脚本即可编辑视频。这是一个有点超前的时代,它的畅销带来了奖项以及很多优质的媒体报道。

人总是有拖延症

打开网易新闻 查看精彩图片

图源:ft

看到人们使用语音搜索引擎其实是一种启示——人们喜欢发现错误,并以此为理由去拒绝哪怕是明显有用的创新。这与YouTube上英国人与早期版本Siri对话的视频片段类似。

电视档案制作有各种背景噪音和音乐,导致识别准确率从实验室的95%下降到大约65-70%。有趣的是,这仍然允许搜索引擎找到合适的剪辑。

问题是,如果向用户显示结果列表中包含他们搜索词的文本,他们还是会关注错误(几乎每行都有一两个错误)。不过,这项技术还是有用的,而且没过多久就有了一个解决方案:不显示全文,而是从每个片段中显示一张静态图像和匹配的单词列表。

这不是嘲笑,它突然就变得像魔法一样。

对我来说,和在贸易展会上看到的口述记录相比,这是一种很好的技术应用。这真的有用,而且并不完全改变人的行为。它扩展了一种无处不在的技能——通过输入关键字搜索东西——并将其应用到视频和网页。

Dragon Dictate相信:到20世纪90年代末,他们创造了Dragon Naturally Speaking,不再需要用户用单词之间的间隙说话。他们就像Matthew一样将他们的技术作为工具包来销售,以集成到任何应用程序中。

而且,尽管笔者对语音识别不感兴趣,还是有各种各样的人使用语音识别听写——对专业人士来说,听写已经是一种规范,但还有许多很难使用键盘的人。

明年的这个时候,我们将成为百万富翁。

从20世纪90年代中期开始,无论是Soft Sound还是Entropic或是Nuance,都时常开玩笑说,“明年将是语音识别的大年”。不知怎么的,这种想法终于悄然实现了。

我在构建现实中的应用程序时,所学经验与他过去几年看到的行为息息相关。很多人仍然不喜欢在他们可以打字的情况下使用Siri。然而,就像成功将搜索扩展到新媒体类型一样,Siri和其他伙伴们也成功地将搜索扩展到新的领域,例如开车、做饭、给孩子洗澡等等。

· “好的谷歌,加油站。”

· “Siri, 2.4公斤的鸡要烤多长时间?”

· “Alexa,用Audible播放Gruffalo。”

话虽如此,Siri问世已经整整10年了,而且当Audible开始为你的孩子播放《五十度灰》时,要想快速更改或纠正Alexa仍然不那么容易。

打开网易新闻 查看精彩图片

图源:proxy3

音频反馈不能像图形用户界面那样给予用户安全感。人们只要看一眼就能确认是否正确输入卡号,但当听到“4659 12341234 1234”这句没有人情味的冰冷话语时,你会不耐烦,心就会沉下去。

到了2016年,那些出现错误、带有苏格兰口音的YouTube视频和搞笑的新闻报道已经少了很多,那些报道声称这是一种固有的种族主义。如果微软的Office软件只适用于90%的人,那肯定会引起轩然大波。这是否意味着语音识别只是一个新鲜事物,而不是真正的产品、授权业务等等?

神经网络确实起到了拯救作用,尤其是对于这类问题。事实证明,拥有足够多的正确训练数据比了解口音之间的语音差异更为重要——该网络将计算出这些差异是什么。

就在五年前,我们还需要训练系统来识别不同的地方口音。但如今Siri可以通过训练网络让苏格兰人阅读已知文本来应对苏格兰口音,也就是教会网络一个单词的各种发音方式。

那么,语音会取代键盘和屏幕吗?

计算机使我们所有人都能同时完成多项任务,有时我认为,语音作为一种接口,即使是用于人际交流,有时也会阻碍我们。一个人可以同时进行几次文字聊天,但不能同时接听两个语音电话。文字和屏幕的交互有一些真正的优势,语音甚至不应该试图与之竞争。

然而,语音技术要发挥其独特的潜力,还有很长的路要走。这对这个行业来说是个好消息,因为越来越多的初创公司获得资金是为了解决现实世界的问题,而不是由大公司来解决。科技必须像人类一样善于倾听和说话,然后在某些情况下变得比我们更好。

离开耳机,语言就不是想象的那样线性。当靠近说话的人时,我们可能会悄悄地对另一个听众发表评论,但其他人还是听不到。在晚宴上,我们可能会同时参与多个对话。因为在现实世界中,很容易听到谁说了什么并针对特定的听众控制说话的音量和方向。

将语音从不同的演讲者中分离出来的技术正在突飞猛进地发展。这可以通过更深入地分析语音以及将音频数据与其他来源相结合来实现,比如使用多个麦克风来测量相对音量和方向,或者使用来自摄像机的输入来添加唇动和面部表情。

2016年谷歌提出了一种新的语音合成方法,使用WaveNet(一种神经网络),它可以通过用真实的人类语言训练产生任何声音。一旦经过训练,它就可以成为机器人合成的语音,然后让它听起来像人在说话。

如今,人们共享最新的发展,整个行业从谷歌、英伟达、微软和全球大学研究人员社区获得最新的想法,在他们的支持下,扩展它们并应用到新环境中,补充来自他们专业领域的专业知识。

笔者花了很多时间研究分析口音、发音错误和语音障碍的系统。有些人很难理解,因为他们有不熟悉的口音或者他们只是语言的初学者。笔者团队可以通过实时反馈让掌握发音变得更容易。但也不必为此烦恼,变形口音和实时纠错都正在成为现实。

语音识别拯救了人类!

打开网易新闻 查看精彩图片

图源:Google

语音不仅因口音而异,还因情绪和身体状态而异。当出现一个让人难以理解的情况,它不仅可以改善,也可以识别什么是错误的。也许分辨紧急呼叫,说话者在哪里受中风、镇静、酗酒、脑震荡或仅是孩子在使用,亦或是说着一种特定的语言。

最后,通过监测语言的细微变化,可以识别早期某些严重的长期神经系统疾病,甚至那些有生命危险的人可以不去医院。对于所有人而言,我们都一直对着手机和电脑说话,所以只需要选择参与,并允许你的声音被分析,而不会因为被录音或听而影响机密性。

有了正确的训练数据,也许同样的技术可以被训练来识别你的咳嗽,实际上是一种新的持续性干咳。

打开网易新闻 查看精彩图片

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范