语音识别成败于场景|场景|成败|语音识别

原标题：语音识别成败于场景

玩家越来越多，语音识别却没有像触控那样成为新一代的主流交互方式，更多只是用户的调侃工具，或是厂商的炫技手段。究其原因，场景缺乏、错误率高、终端有限。尽管最前沿的语音识别准确性已经大幅提升，但如果放在工业领域，更复杂、数据量更多的情况可能会需要超过95%的准确率，显然无法达到。因此，语音识别难以取代任何触控和其它输入方式，唯一的成功机会在于特殊场景。

如今，亚马逊的智能家居硬件Echo销量早已超过400万台，用户不仅可以用它查询天气、银行账户余额、购物，还能播放音乐、设置闹钟...其内置的语音助手Alexa提供了500多项功能。盯上客厅的还有谷歌，Google Home在I/O大会上被描述为未来智能家居的雏形，一句“OK，Google”即可唤醒，谷歌希望借此打造用户的消费入口，在亚马逊的市场抢蛋糕。谷歌用Google Allo证明，Google Assistant可以更人性化地理解上下文语意，并给出相应回答。除了用户端，英特尔在研发层面也不甘落后，将与Sensory联手在新一代芯片中整合语音识别技术。此外，苹果也在积极推进语音技术，把Siri放上了Mac。这些都是特殊场景成功使用语音输入的案例。

今年6月，KPCB合伙人、“互联网女皇”玛丽·米克尔在互联网趋势报告中特意提到了语音，指出这种技术正在被重塑，成为人机交互的新范式。如果语音识别的准确性可以从95%提升至99%，就会迎来“爆发点”，并且要解决环境干扰和讲话者声音特性的识别。应用方面，百度、谷歌的语音搜索在近十年来取得了数十倍的增长，无论是Siri、Google Now、百度语音，还是新兴的Alexa，遍布在各类生活场景中。数据显示，Android、百度和Bing语音搜索比例分别达到了20%、10%、25%。

与传统交互相比，语音输入更加快速，例如人类每分钟可说出150个单词，打字只能完成40个单词。更重要的是，智能穿戴、虚拟/增强现实、智能家居等设备的交互彻底解放了双手，这种与生俱来的能力也降低了学习门槛，配合人工智能技术的演化，让机器可以更好地理解语意，在物联网时代有着很大的优势。

此外，第三方开发者也是推动语音技术跃进的关键力量，很多厂商已经看到了这一趋势。去年11月，谷歌宣布将第二代机器学习系统TensorFlow开源，这一举措为其在语音和图像领域的拓展埋下伏笔。通过TensorFlow编写的运算可以在异质平台通用，迁移时重写代码的成本很低。在开发层面，Facebook也面向AI开发框架Torch推出了免费的工具源代码，其他参与者还包括DeepMind、英特尔、AMD、Twitter等。

说了这么多，或许对于拿着iPhone在用Siri的你来说，语音识别并没有这么神奇。为什么会有这种感觉？究其原因，离不开技术、场景、体验。正如吴恩达所说，没有人愿意为一个回复等待10秒。Alexa的成功在于，抓准了用户的使用习惯，人们在客厅说话再正常不过，而谁会拿着手机在拥挤的地铁上说一句“Hey Siri”呢？体验方面，Alexa与亚马逊电商业务深度整合，实现了“一句话下单”。技术方面，Echo配备了七个麦克风，响应时间在1.5秒左右，相关开发者也已过万。

亚马逊高管Dave Limp认为，下一代计算平台将建立在语音的基础之上，“我们现在做的，就是这样一款专为用户打造的、完全由语音控制的云计算机。”未来，Echo或许会成为亚马逊的下一个十亿美元级业务。可以说，最初的定位差异导致了Alexa的成功，Siri却不温不火。

《2016互联网趋势报告》中提到，近几年来自语音的搜索量极具上升，这表明人们的需求也在大幅增长。然而，为什么还有人觉得语音是鸡肋？或许是因为，手机并非最佳的呈现设备。语音是最大差异化是解放双手，本身就与手机的使用相违背。虚拟/增强现实、智能汽车、智能家居...这些概念的初衷就是激发新的交互方式，对话、理解、场景的结合，让语音技术更适应下一代平台。

目前来看，智能手机仍是核心计算设备，使得语音识别始终是附属品，在语言翻译等方面有不足之处。此外，语音识别在公开场所的使用也面临着安全性的挑战。如同手机软件和硬件的缺陷，语音技术同样需要不断完善，对话的理解、情感的培养、内容的丰富...不过关键是要发掘让其成为主流的场景。事实已经证明，人们并不厌烦语音识别技术。尽管在短期内，语音识别无法完全取代触控，但是随着场景化体验的完善，语音技术的发展空间将是巨大的，正如玛丽·米克尔所说，语音识别的拐点已经到来。