云知声CEO黄伟：人工智能的3.0 时代|云知声|人工智能|黄伟

网易科技讯 6月28日下午消息 “网易未来科技峰会——原力·感知”在京举行。在平行论坛“感知·人工智能”环节，云知声CEO黄伟讲述了AI3.0时代，云知声的布局。

黄伟表示，从历史角度看每次人工智能的浪潮都始于算法取得的巨大突破，人类已经经历了2次人工智能浪潮，但前这两次的人工智能浪潮分别由于计算能力和数据的制约而走入寒冬。

而现在三大要素在支撑人工智能走向下一阶段：深度学习、计算能力以及大数据。黄伟认为，大数据为支撑的人工智能必将迎来全新的发展阶段，即人工智能3.0时代。

现阶段AI的交互模式里，最常见的交互模式包括语音交互、手势是被、图像识别和体感交互，而语音被定义为最基本的人机交互入口。

除了语音识别之外，云知声在认知智能方面，还在语用计算，自然语言生成，自学习方面也取得了大的进展。

黄伟认为人机对话交互的核心是语用计算，而不仅仅是语义。语义主要研究非语境意义，也就是字面意义和抽象意义，但语用学则是研究语境意义，重点是“用意”，也就是话语在特点语境中所传递的交际意义。

自然语言生成，可以实现个性化，一致性和感情化；自然语言生成的应答，依赖于情感化语音合成技术；而自学习是机器成长的过程，通过深度学习来对未知数据做出很好的决策。

黄伟透露，云知声从AI芯开始建立了感知数据的入口，设备端完成智能解决方案落地，语音云为用户提供了更多个性化的服务。目前云知声已经覆盖了476个城市，9000万台接入设备，年调用量增长率达到了375.3%。

以下为黄伟在网易未来科技峰会演讲实录：

贾梦霞：下一位嘉宾是云知声CEO黄伟，他曾任职摩托罗拉，后出任盛大合资院高管，他今天演讲的主题是“让家居会说话”，有请！

黄伟：各位朋友大家下午好，今天非常高兴到网易科技里边做分享，今天我们非常自豪地说我们这个部门也是中国人工智能产业的黄埔军校之一。

今天我的分享题目是“人工智能的3.0时代”，我们先放一个视频，介绍了一下简单制作。

（播放视频）

没错，我们就是智享未来，我们希望我们的智能语音技术能给我们未来的生活带来特别智能化的改变。其实我们在很多场合都看到一张类似的图，今年是人工智能这个概念提出60年，其实在过去60年里边，人工智能技术曾经因为新的技术架构的出现，带来了一个对人工智能一个新的期望。然后又伴随着技术条件的不成熟，以及技术现状和我们人类预期之间的偏差，它从波峰跌入到低谷，过去60年代一次、80一次，其实很正常，60年代我们用的是发动机，它的运算能力非常弱，80年代我们既没有互联网，也没有PC。在这个时间段人工智能能给我们生活带来一些帮助。

引起是在今年3月份的AlphaGo之后，在我们人类智慧游戏最后教的一个围棋，能够把我们像神一样围棋九段十段高手打的落花流水。

人们是人工智能？就是人类我们如何去思考的？左边是人类的一个大概的思维过程，我们是从这个物理世界里面看到一些应用的情况，无论是声音的还是图像的，我们从这里面会抽出一些原始的特征。我们再抽出一些抽象声音输入到大脑里边得到一个结果。

其实我们在最近2006年，把深度学习用在智能学习，深度学习有什么区别呢？它就是通过去模拟人脑，通过对图像进行多层次地判断，我们很多人都在研究神经网络，包括我本人的博士论文也是做神经网络的，我曾经一度认为这个神经网络没什么帮助，我曾经一度想放弃。我在博士毕业前一年我临时换了方向，今天想想看那也很正常，因为当时我们没有很好的资源，我们没有像今天的资源，我无法用非常复杂的网络达到多层次的抽象。

如果说我们用每一个神经元，比方说我们用右边这个图里边的每个圈圈，如果每个圈圈来模拟我们人类的神经元的话，在以前就是一个很浅的网络，可能只有几个节点，如果每一个圈圈都代表一个神经元的话，我们大脑是很少的，今天我们有很强的运算能力，由于大数据，我们可以用非常复杂的网络，我们有更多的神经元，相当于我的脑能量比以前扩大了很多。

另外一个，对人工智能的发展起到非常重要的推动作用，今天的计算能力和当时是不可同日而语的，我的硕士论文我当时用的电脑的主频是100兆，那个时候我一怒之下就转去做语音了，从图像变成多媒体了。但今天我们不光是有很强的PC，我们还有GPU、而且GPU逻辑都是跟CPU非常不一样的，它非常适合做深度学习，今天我们的运算资源已经足够用了，包括过去十几年里面，到2009年的移动互联网，所以我们可以用非常便捷的方式获得海量的用户的数据，回想一下我以前在莫斯科的时候，当时也是做一个产品，当时我们做任何一个语言，能获得的语调只有以百小时为计，我可能就在一个小房间里专门录的，这个跟我的产品差别是非常大的。所以算法的突破、运算能力的获取，以及今天移动互联网，包括IOS技术的来临都是互联网获得的必备的条件。

今天人工智能不是即将发生，其实已经在发生了，我们生活中已经有很多了，比方说2014年底亚马逊推出了ECHO音响，现在我们发现它已经达到几百万台至多，包括机器人、甚至我们的家居里面人工智能真的是已经来临。

在人工智能的交互模式除了图像之外，还有其他的一些交互模式，像声音、体感，或者基于其他方面的交互方式，根据IBM的一个报告，我们发现在IOT时代里面，有13%以上的概率是通过声音来发现的。现阶段在很多场景里面已经有声音了，比方说我们在语音搜索、我们在微信上已经开始用声文的实际数字来输入了，现在很多领域里面声音已经进入非常重要的使用场景了。

后面我简单介绍一下，在AI这一块从感知到认知有哪些图谱？前面有声音到文字，我听到你说了什么，听懂你说了什么，当然还有一些引用计算，经常中国人会说这是什么意思呢？在不同产品下面同样的文字可能有不同的含义。当然也包含如果我们希望说像机器人能够用语音跟我们对话的话，它一定要有一个自然适用的语言，而且它一定是情感化的沟通方式，而不是一种很生硬的机器的方式。

我们认为所有的系统，除了满足我们现实需要之外，它还应该具备一个自我进化、自我学习的能力，这是它六个主要的图谱。

语音识别我以前一直在做这个，包括云知声成立一开始是做语音识别，我们自己跟自己对比的话，我们经历三个主要阶段。最开始的时候在2012年底之前，那时候我们是用的主流的在当时是主流的基于统计学的方式，GMM/HMM这是典型的统计模型，我们第一个把语音识别用到云服务里面去，我们用了当时的DNN，后面又出现了一系列DNN的变种，比如说RNN啦，今天我们已经进化到第三代。这个会在同样数据级的情况下，我们会用纯中文的，如果是在中英文混合的情况下，我们处理相对下降30%，今天业内最顶尖的我们做到96%、97%，这个成绩是非常巨大的。

另外我们也把深度学习应用到语音里面去，如果在字正腔圆的规范化的语音里面，它和传统的区别不大。但是如果说我把它用在口语对话里面，这个帮助是非常大的，因为口语对话和笔记相关，而且它容易省略，这些数据我们认为是噪音的，但是自动语音对这分析处理是非常好的，我们在意图分类方面，我说句话我把你归位说到底想找饭店，还是说导航，意图分类上我们可以从80%多提高到96%。而在序列标注，我这一句话序列标注会从91%提升到93%，我们看到深度学习在语言里面也能够起到一些帮助。尤其在一些声音使用产品下帮助非常大。

另外，我们讲语用计算，我们举个例子，如果说我说这句话叫太冷了，可能根据这句话我们能够从文字本身识别出来可能是温度有点低，那你到底是在办公室，还是车里面？还是在什么场景下？这个可能要做不同的操作。我们的语境有物理的、言语的、知识的，我们在一个屋子里肯定是基于办公环境下，这个情况下语用计算显得非常重要。

另外，我们还是用刚才的机器人举例子，我们希望机器人能跟人一样跟我们对话，第一是个性化，我们希望这个机器人见人说人话，见鬼说鬼话，针对男人、女人、老人、小孩应该用不同的方式来跟他对话，要做到个性化。第二还要一致性，其实我们可以看到在很多聊天中我们看到一个很简单的例子，比如说你今年几岁了？他说我反正是90后，你再问他说你是90后吗？他说不是啊，因为语音是来自不是同一个人，就是它不具备一致性。当然根据产品不同，我们当然希望说这个机器人他的自然生成对话应该是有情感的，我在不同的情况下可能有不同的对话方式。

其实，对话和机器翻译差不多有一个框架，机器翻译是说我同一个意思用不同的语言来表达，自然语言生成的我是同一场景结合上下文来找一句话跟它对应，我们是用同一个架构来表达它。

如果说我听到了、听懂了，而且我又能结合场景给你一个和你的需求相匹配的一个对话的话，当然我也希望说你不要像机器一样说话，我们回想一下以前我们在很多场合看到的机和人声音非常非常相似，但是我们一直在努力。

（演示）

这句话是我们后台机器合成的一句话，这句话我们用了两类技术，一种是基于一个模型的。同时我们可能对TBS比较了解，它有两大流派，一类是拼接的，我事先把不同的字录好，根据文本把它拼接起来，大家可以想象一下，我同一个字在不同场景下它的发音是不一样的，评分也是不一样的，拼接它的好处是效果比较好，很难做得非常好，你不可能把一个字在不同场景下的各种音调全部收取，我能不能用其他方式呢？好处是说我不需要把这个时间的话全部存下来，有些话机器不会非常重、很平，我们既可以把这个系统做得非常精简，同时这个话听起来也有比较好的韵律感，这样的话我们从语音识别、到语意理解、到自然语言的生成，到情感化的自然语言合成这种就串联成一个人机交互的非常流畅的过程。

讲到深度学习的话，我们一定想深度学习有进化性，包括AlphaGo它用了一个我们有关注的系统，叫争抢学习系统，比方说我们在动物园看到猴子会翻跟头，翻完跟头之后饲养员就给它吃香蕉，就是你告诉猴子这么做了是有好处的，几次训练之后猴子就觉得我这样做是有好处，我干吗不这样做呢？其实它就是给这个系统一个目标，这个就是增强学习系统。为什么很重要呢？我一个系统的进化一定是离不开和环境的交互，就是我要跟环境形成一个反馈。增强学习系统我们在未来的AI的进化里面会占据一个非常重要的地位。

另外，我们也看到最近比较前沿的研究，比方说我们过去传统的统计模型，我们是选择一种参数，人工再设计一种模型，使得它能够和未来未知的环境去比较，深度学习为什么比传统学习好呢？深度学习它不是设计一组参数，而是学习一组参数，这个是靠他自己本身从数据里面学习出来的，然后再去预测一些未知的环境。这里还有一个问题，我们今天所有的深度学习，那些神经网络还是有深度学习，能不能比如说让这个系统自动进化呢？所以Deep让一组神经网络为另外一组神经网络做虚拟，而且这个事情他做成了，那意味着我们未来的单元系统一定具备一个自学习能力的。

当然，这个会引出人的另外一种担忧，万一某一天这个机器人具备情感了，是要把我们替换掉了吗？我觉得这个就看你的目标怎么设？如果说我们能够控制好的话，AI并不会威胁到我们。

前面讲到了一些语音智能方面的一些主要的技术方向，下面讲一下云知声大的布局。云知声我们是以语音识别来切入的，顺着技术脉络不断地去拓展，今天我们是一个语音智能为核心，我们涵盖了云、端、芯，我们通过这种方式来给用户提供一体化的解决方案。

到今天云知声在这些领域取得了一些成绩，比方说在中国的后装车机市场里面我们占有60%的市场份额，基本上70%的自主厂商用的语音交换是云知声的。还有白色家电领域唯一落地出货的芯片供应商，我们能够提供给工业应用的话云知声是第一家，保证2016年5月份乐TV发布的第三代机器里面不再需要摇控器了，不再需要拿着摇控器去找台，我躺在床上用嘴巴说就可以了，这个产品已经发布了。我们还应用在医疗语音录。

目前我们的云端服务已经覆盖了全国476各城市，超过9000W台的终端接入设备，年调用量增长率为375.3%，今天我们可能说在语音平台里面，如果说我们在谈到人工智能是一个进化的系统，而且在这里面我们认为说运算能力是可以买来的，算法也没有太高的门槛，基本上我相信全世界聪明的工程师能力差别不会特别大。但是，能够保证让人工智能系统首先有一个比较好的效益，而且能够持续不断地往前进化的重要的要素，恰恰我们在2012年的时候我们意识到人工智能是靠数据驱动的，我们构建了平台。曾经有很多朋友问我们为什么要做平台，为什么不做APP，我们认为人工智能技术是一个很长的赛道，就像火箭需要燃料不断地供养一样，如果深度学习的出现使我们有了一个大数据的火箭发动机，燃料就是数据。这个角度上来讲，我们觉得从过去到今天我们所坚持的方式、这种战略，我觉得可能对云知声未来的技术升级是一个非常好的技术。当然算法我们也不断地去优化，正是因为我们储备了足够的燃料，我相信在人工智能这个道路上我们能够飞得更远、飞得更高。

最后用云知声的口号来总结我今天的发言，智享未来，我相信人工智能会极大地改变我们的生活、颠覆我们的生活，为我们的生活创造更多的便利、舒适。

谢谢大家！

《2016未来科技峰会专题》

6月28日，第三届“网易未来科技峰会”将在北京国贸大酒店举行。

本次峰会主题为“原力.感知”（Force·Sense），探寻商业发展和技术发展的内在原动力，感知VR、AR、人工智能和智能出行等领域的未来。

本次峰会将邀请国内外最具有未来感和前瞻性的企业家、科学家、科幻作家、创业者、投资人、跨界明星、文化名人一起，大脑激荡，探寻通往未来的神秘力量，体验感知力的能量场。