原标题:AI民主化的进程中,智能语音助手的故事进入了入高潮

摘要: 智能音箱把语音交互的方式从近场转移到了远场,并提升了准确率,正是这个微不足道的支点,撬动了一个想象空间巨大蓝海。

今年的谷歌开发者大会上,谷歌发布了一系列与人工智能相关的产品,备受关注的Google Home 虽然在硬件上尚未升级,但智能语音助手 Google Assistant 却再一次让我们领教了晦涩难懂的人工智能技术。

包括谷歌的Google Home、亚马逊的Amazon Echo,以及国内京东与科大讯飞合作的叮咚等在内,当下的科技巨头和创业公司似乎都在步调一致地在做着相同事情,即通过智能语音助手的形式连接各种服务,载体则是智能音箱。

智能音箱最神奇的地方在于,它其实算不上什么功能上的创新,我们可以用它来听歌、问天气、订电影票、控制家电等等,这些功能在手机上同样可以实现,唯一的区别就是把语音交互的方式从近场转移到了远场,并提升了准确率。

正是这个微不足道的支点,撬动了一个想象空间巨大蓝海。

人工智能落地的正确姿势

如果换个角度从智能音箱的属性来看,或许也可以理解市场的狂热。

首先是音箱本身,这是一个多年来几乎都没什么实质性变化的3C品类,它可能也是仅次于手机的个人消费电子设备,数据显示仅在国内的市场规模就能达到千亿级别,似乎谁都不能忽视这个巨大的市场。

另外一部分智能,则是近两年来随着智能家居行业的兴起而逐渐发展起来的概念,音箱作为一个语音交互工具,它可能不再是一种辅助技术,事实证明越来越多场景下可以替代我们目前所依赖的触摸屏,它已经被当做物联网时代的入口级核心产品。

当传统的高品质音箱还在HiFi路上前行,普通的蓝牙音箱除外观形态外再难有其他进步时,从技术创新的演进过程来看,音箱这个品类的确正处在一个需要“被革命”的市场环境下,智能化是业界公认的主流方向。

这场智能音响争夺战中,国外的Amazon Echo、Google Home最引人注目。数据显示,Amazon Echo 系列音箱已占领美国智能音箱 70.6% 的市场份额,截止到现在其销量已经超过了千万台,超过了其他任何一款产品。

智能音箱是人工智能落地家庭的方式,这点在美国市场已经得到验证,Amazon Echo 的出现功不可没,它首次把语音和自然语言理解的交互以崭新的产品形态呈现给消费者,并且成功实现了商业化。

但迄今为止国内尚未出现Amazon Echo 这样现象级的产品,甚至这个命题伴随着 Amazon Echo 的问世已经存了在很长时间,像叮咚、Rokid等几款屈指可数同类产品还处于教育市场的阶段。

定义语音交互标准

语音是最简单、最自然的人机交互方式,同时也是技术难度最大的交互方式,特别是语音交互从近场走向远场落地到真实场景,必须考虑噪声、混响、回声等声学问题,以及数据差异引入的机器学习模型问题。

从技术角度来看语音识别的体验已经相对成熟,国内的最擅长语音的科大讯飞宣称其识别准确率已经达到了97%,这里以叮咚智能音箱为例,其交互中所用到的远场识别和麦克风阵列技术均由科大讯飞提供,从理论上来说用来做音箱或者其他形式的交互产品应该问题不大,但用户表现似乎并没有达到预期。

叮咚音箱所用的远场识别技术和麦克风阵列

对于智能语音交互在家庭场景中的应用来说,行业大规模爆发的核心在于两点。

第一,用户体验可以突破可用这层窗户纸,达到易用和好用的状态;第二,产品接入的服务足够全面和丰富,可以满足用户在该场景下的各种需求。

亚马逊最初推音箱主要是为了后面的服务,而服务和内容正是亚马逊最擅长的部分,叮咚音箱在理念上其实与Amazon Echo如出一辙,都是将复杂的问题简单化,它并没有局限在控制环节,而是想实现“唤醒-控制-服务”流畅的用户体验。

与界面交互不同的是,语音交互过程中往往是“多对一”的指令,即用户的同一种意图有可能以多种不同形式提出,这就要求语音交互必须大量学习人们的日常语言习惯,甚至做到理解用户的语义的“弦外之音”。

如何理解用户意图,并定义对应的语音交互服务标准显得尤为关键。

由于 Amazon Echo 和 Google Home 目前还不支持中国地区,并且只支持英文对话,所以在国内环境下还存在着很大的使用门槛,众多国内的创业公司便寄希望于科大讯飞的这样的平台。

依托科大讯飞强大的技术积累,叮咚音箱经过近两年来的不断优化,目前的年交互次数达到了1亿次。基于此,叮咚发布了一份语音交互的标准,可以用来识别同样意图下不同地域、文化、性别的各种表达习惯(不同的句式和用词)。

叮咚语音交互体验标准的发布,从消费者角度来看可以提供更优质的交互体验,更重要是的,它极有可能为第三方服务和内容厂商带来新机会。

且参考这份标准,接入产品后能够在最短的时间内达到最优用户体验,不必担心因为因没有方向盲目行动而造成用户体验变差、导致用户流失。

在这份标准的指导下,或将迎来第三方服务和内容厂商接入语音交互的新潮,带动内容服务行业与语音交互行业合作的高速增长。

智能语音助手背后的生态服务

Amazon Echo 的胜利在于其语音助手 Alexa 掌握的无数技能,Google Assistant 以及Google Home之所以被人看好是在于其 Android 后发优势所具备的开放性。

智能语音助手类的产品要想在中国落地开花,它不仅仅是简单的语音识别那么简单,还有集成服务,一整套的中文生态、内容、服务等配套设施,是一种涵盖很多基础能力的生态系统。

对中国来讲,2017年被认为是语音交互设备爆发的一年,这既是叮咚智能这类国内语音助手产品的机会,同时也是在产品化过程中所面临的挑战,并且生态这件事并非某一家公司凭借一己之力就能做到。

以叮咚背后的京东智能云语音服务开放平台为例,其开放平台已经开放了应用、智能硬件和游戏三个大类,在每个大类下,又开放了十多种小类。

其中,应用类包括便携生活、办公商务、教育学习、新闻阅读、购物优惠、金融理财和社交通讯七个小类别;智能硬件类包括智能家居、智能穿戴、机器人和其它四个小类别;游戏类也包含了音乐游戏角色扮演、模拟经营、动作冒险等十多种类别的游戏。

尽管叮咚智能音箱可能是目前国内最接近 Amazon Echo 形态的一款落地产品,但其实它能带给我们的还比较有限,仅仅问个天气、放一首歌都属于非常低效的服务,真正的需求应该是帮助和减少人们的生活或者工作负担。

就像互联网产品的发展周期那样,初期的关键首先是用硬件快速占领用户,后期则将比拼的是服务与生态。

只不过智能语音助手类产品的规模化可能比大家期望的要慢,核心就在于商业上的正向反馈需要一定时间周期,技术提升产品体验,体验获取用户和销量,以此来带动生态的循环发展,这是一个需要多年且持续投入的事情。(本文首发钛媒体,记者/李玉鹏)

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App