原标题:语音识别成败于场景

玩家越来越多,语音识别却没有像触控那样成为新一代的主流交互方式,更多只是用户的调侃工具,或是厂商的炫技手段。究其原因,场景缺乏、错误率高、终端有限。尽管最前沿的语音识别准确性已经大幅提升,但如果放在工业领域,更复杂、数据量更多的情况可能会需要超过95%的准确率,显然无法达到。因此,语音识别难以取代任何触控和其它输入方式,唯一的成功机会在于特殊场景。

如今,亚马逊的智能家居硬件Echo销量早已超过400万台,用户不仅可以用它查询天气、银行账户余额、购物,还能播放音乐、设置闹钟...其内置的语音助手Alexa提供了500多项功能。盯上客厅的还有谷歌,Google Home在I/O大会上被描述为未来智能家居的雏形,一句“OK,Google”即可唤醒,谷歌希望借此打造用户的消费入口,在亚马逊的市场抢蛋糕。谷歌用Google Allo证明,Google Assistant可以更人性化地理解上下文语意,并给出相应回答。除了用户端,英特尔在研发层面也不甘落后,将与Sensory联手在新一代芯片中整合语音识别技术。此外,苹果也在积极推进语音技术,把Siri放上了Mac。这些都是特殊场景成功使用语音输入的案例。

今年6月,KPCB合伙人、“互联网女皇”玛丽·米克尔在互联网趋势报告中特意提到了语音,指出这种技术正在被重塑,成为人机交互的新范式。如果语音识别的准确性可以从95%提升至99%,就会迎来“爆发点”,并且要解决环境干扰和讲话者声音特性的识别。应用方面,百度、谷歌的语音搜索在近十年来取得了数十倍的增长,无论是Siri、Google Now、百度语音,还是新兴的Alexa,遍布在各类生活场景中。数据显示,Android、百度和Bing语音搜索比例分别达到了20%、10%、25%。

与传统交互相比,语音输入更加快速,例如人类每分钟可说出150个单词,打字只能完成40个单词。更重要的是,智能穿戴、虚拟/增强现实、智能家居等设备的交互彻底解放了双手,这种与生俱来的能力也降低了学习门槛,配合人工智能技术的演化,让机器可以更好地理解语意,在物联网时代有着很大的优势。

此外,第三方开发者也是推动语音技术跃进的关键力量,很多厂商已经看到了这一趋势。去年11月,谷歌宣布将第二代机器学习系统TensorFlow开源,这一举措为其在语音和图像领域的拓展埋下伏笔。通过TensorFlow编写的运算可以在异质平台通用,迁移时重写代码的成本很低。在开发层面,Facebook也面向AI开发框架Torch推出了免费的工具源代码,其他参与者还包括DeepMind、英特尔、AMD、Twitter等。

说了这么多,或许对于拿着iPhone在用Siri的你来说,语音识别并没有这么神奇。为什么会有这种感觉?究其原因,离不开技术、场景、体验。正如吴恩达所说,没有人愿意为一个回复等待10秒。Alexa的成功在于,抓准了用户的使用习惯,人们在客厅说话再正常不过,而谁会拿着手机在拥挤的地铁上说一句“Hey Siri”呢?体验方面,Alexa与亚马逊电商业务深度整合,实现了“一句话下单”。技术方面,Echo配备了七个麦克风,响应时间在1.5秒左右,相关开发者也已过万。

亚马逊高管Dave Limp认为,下一代计算平台将建立在语音的基础之上,“我们现在做的,就是这样一款专为用户打造的、完全由语音控制的云计算机。”未来,Echo或许会成为亚马逊的下一个十亿美元级业务。可以说,最初的定位差异导致了Alexa的成功,Siri却不温不火。

《2016互联网趋势报告》中提到,近几年来自语音的搜索量极具上升,这表明人们的需求也在大幅增长。然而,为什么还有人觉得语音是鸡肋?或许是因为,手机并非最佳的呈现设备。语音是最大差异化是解放双手,本身就与手机的使用相违背。虚拟/增强现实、智能汽车、智能家居...这些概念的初衷就是激发新的交互方式,对话、理解、场景的结合,让语音技术更适应下一代平台。

目前来看,智能手机仍是核心计算设备,使得语音识别始终是附属品,在语言翻译等方面有不足之处。此外,语音识别在公开场所的使用也面临着安全性的挑战。如同手机软件和硬件的缺陷,语音技术同样需要不断完善,对话的理解、情感的培养、内容的丰富...不过关键是要发掘让其成为主流的场景。事实已经证明,人们并不厌烦语音识别技术。尽管在短期内,语音识别无法完全取代触控,但是随着场景化体验的完善,语音技术的发展空间将是巨大的,正如玛丽·米克尔所说,语音识别的拐点已经到来。