编者按:7月10日,网易科技受邀参观科大讯飞合肥总部。作为国内最大的智能语音厂商,科大讯飞目前已经将智能语音技术应用在移动应用、智能家居、机器人、车载、教育等各个领域。从科大讯飞人工智能实验室中,记者得以窥见科大讯飞目前几乎所有的技术应用。那么,科大讯飞如何在二三线城市中闷头研发?又如何与国际巨头微软等竞争?近几年国内兴起的语音、语义分析厂商会不会对科大讯飞造成威胁?

文/小羿

自从有了计算机以来,人机交互的形态就在不断进化。而现阶段智能语音被很多人认为是下一代人机交互形态,相比于传统的人机交互如键盘鼠标、触摸等,语音交互更自然;相比于新兴的手势交互和眼球追踪等,智能语音更符合人的交际习惯。

作为这一风潮的引领者,微软、IBM和日本的一些技术厂商曾经垄断了包括中文在内所有主流语言的语音合成和语音识别技术。而科大讯飞在早期通过对数字信号处理、声学研究、实验语音学等领域的产业整合,打破了这一技术壁垒,并在国际上牵头制定了中文语音技术标准。在不久前互联网女皇的报告中,智能语音被认为是下一代人机交互的新范式,语音助手将占据家居、汽车、手机的麦克风,还能智能购物。资料显示,截至2016年7月,终端用户数超过7亿,日均语音使用次数突破20亿,第三方创业伙伴超过15万家。在这些技术开发之后,科大讯飞在某些特定领域开始谋求市场化和产业化的道路。

移动互联网应用:主打语音输入和语音助理

据科大讯飞工作人员在人工智能实验室中的介绍,公司目前拥有讯飞输入法、讯飞翻译、灵犀语音助手,另外还有录音宝、云电话手表、酷音铃声六款主要的移动应用。其中讯飞输入法最受欢迎,其最重要的功能在于语音输入。工作人员向网易科技介绍到,讯飞输入法目前不仅支持19种方言的精准语音转文字输入,还支持中英互译输入,即输入中文语音直接专为英文文字,输入英文语音直接转为中文文字。

还有一个比较受欢迎的应用是灵犀语音助手,它支持语音拨号、短信、提醒、翻译、订票等功能,类似于苹果的Siri语音助手。据悉,目前包括联想、华为、金立、HTC、小米、锤子等许多手机厂商的自带输入法和语音助手都是由科大讯飞定制。

第三款应用是讯飞翻译,除了支持中英互译自动朗读,还支持中文-维吾尔语、中文-藏语互译等。

智能家居:AIUI将门槛大大降低

接着,科大讯飞工作人员进行了AIUI的演示。AIUI是科大讯飞发布的一整套的语音交互解决方案,集成了科大讯飞在双全工技术、麦克风阵列技术、声纹识别技术、方言识别、语义理解技术和内容服务等技术和服务。通过装置AIUI方案的开发板或电视盒子,可以用语音在电视屏幕上进行交互。

在交互演示中,记者感受到了两个最重要的技术进步。一是支持多轮对话和上下文理解。比如说“给我订一张北京到上海的票”,讯飞语音助手会问“坐飞机”还是“做火车”,并在得到回答后找到所有在售的票,接着再问具体时间,甚至可以识别用户说出的具体要求,比如“我要最贵的”、“我要时间最短的”、“我要12点出发的”等等。电视盒子方面,只要对着讯飞遥控器说,“我要看XX卫视”、“我要看XX导演的电影”,均可一句话直达节目,并且还支持语音调播放时间,例如“帮我调到1小时5分30秒的地方”等等,识别精准性很高,实用性很浅。

第二个比较大的进步是支持远场识别。由于AIUI开发板采用了科大讯飞的麦克风阵列技术,所以支持声源定位和锁定,在3到5米的范围内,AIUI均可识别出特定方向的语音,即使在嘈杂的环境中也可以定位声源并识别操作。另外,科大讯飞与京东合作的DingDong音箱也支持声源定位。

声纹识别和实时识别:抢了模仿与速记的饭碗

在人脸和声纹识别的演示中,科大讯飞利用声纹识别可以将任何人说的话实时转译成郭德纲、林志玲等明星的声音。据科大讯飞工作人员介绍,目前很多地图软件上的名人导航包都是根据科大讯飞的声纹识别合成的,并不需要这位名人录制所有涉及到的语音。但是,在展示的实时的声纹转译中,需要注意一个很重要的点,就是在语速上尽量要与目标声音一致。

而讯飞听见是一款实时语音识别转文字的软件,类似于实时速记员。它可以将演讲、采访等实时记录成文字。目前,讯飞听见已经推出了线上的实时速记服务,收费版还可以提供专业词汇的校对等。

从这两项技术来看,未来声音模仿员和速记员恐怕要面临失业的问题了。

车载领域:将语音助手完全融入汽车

同时,讯飞在车载上也开始发力,目前已经与奇瑞联合推出了智能车机交互的整车前装解决方案,并且已经在奇瑞的最新款汽车上应用。据讯飞车载领域负责人刘俊峰介绍,讯飞开发的适用于奇瑞汽车上的车载主机可以通过语音唤醒,还可以通过车机下部的按钮或方向盘上的按钮唤醒。这款车机除了具备语音拨号、语音导航控制、查周边和预订服务等,还在音乐和电台上进行了深度优化。音乐方面,支持语音按歌曲名、歌手名等查找曲目。

考虑到车机网路连接的问题,目前这款车载主机采用了云+端的解决方案。即在离线的时候可以调取内存卡中的离线地图和曲库,在连接网络的时候可以进行OTA升级和在线网络服务和在线音频播放。刘俊峰表示,目前讯飞研发的车载主机暂不涉及自动驾驶控制,而人机语音交互、这是讯飞在车内的核心深耕方向,例如车载娱乐、语音通讯、导航服务等领域。

另外,网易科技还参观了奇瑞前瞻研究院、奇瑞碰撞实验室、NVH实验室和24通报,还有艾瑞泽5生产线-奇瑞总装车间。其中,艾瑞泽5是奇瑞与科大讯飞全面合作的汽车产品,加入了科大讯飞为其定制的智能语音控制系统Cloudrive2.0。Cloudrive2.0最大的特点是内置4G无线网络、可以实现全程语音交互和全平台手机映射,并且在语音交互中融入了科大讯飞的自然语音识别与理解、多种发音+方言识别等核心技术。

教育领域:机器人阅卷背后 志在考上一本

教育方面,科大讯飞工作人员演示了利用语音识别技术在课堂上进行英文课程教学的案例。同时,考试阅卷也是科大讯飞在教育上主攻领域之一。先通过扫描机对试卷进行扫描,然后识别学生的答案,主要是在英语作文和语文作文这个题目中,每位学生的字体都不相同,但识别的准确率却非常高。而且,讯飞的阅卷软件会给出几个维度的评分标准,根据评分标准作出批改评语。

据悉,科大讯飞的人工智能计划“讯飞超脑”就是让讯飞AI在2020年参加高考并考上一本线大学。据讯飞相关工作人员介绍,“讯飞超脑”计划要研发基于类人神经网络的认知引擎,赋予机器“能听会说”到“能理解会思考”的能力。

科大讯飞能成为语音领域的BAT吗?

技术是基础,市场表现将直接决定公司的未来。据公开财报显示,今年第一季度,科大讯飞营业收入为6.32亿元,同比增长55.84%,归属于上市公司的股东的净利润为7066万元,同比增长6.13%,公司预计上半年净利润在1.43亿元至2.15亿元。也就是说,在刚刚过去的第二季度,科大讯飞的净利润预计为7234万元到1.44亿元之间。

这一数字,不仅与巨头相比差距很大,而且离科大讯飞的最终目标也相去甚远。从语音技术本身来看,语音作为目前人机交互形态还有很多的问题,比如,方言口音、环境嘈杂都会影响精准度,虽然科大讯飞已经攻克了粤语、闽南语等方言识别,也利用麦克风阵列识别远场声源,但因为口音和环境的复杂程度,目前依然不能达到100%的识别,这在未来一段时间内将是所有语音厂商持续面临和不断攻克的难题。从外部来看,随着深度学习模型的建立与开放,目前市场上的语音、语义分析应用的厂商越来越多,未来的竞争压力也会越来越大。

目前阶段,用户尚未形成全程的语音交互习惯,语音交互目前离超越触摸等传统交互方式还有很长的路要走。在这种情况下,科大讯飞想要在市场上保持领先性,在加快技术研发的同时,还要快速推进在教育、车载、智能客服、智能家居、移动互联网等领域的应用和经典案例的落地,这对科大讯飞的跨行业的整合能力,由提出了新的挑战。