今年5月,人工智能大师吴恩达(Andrew Ng)加入了中国互联网先驱百度公司,担任首席科学家职位。当时,吴恩达对他和他的团队在加州桑尼维尔一家新成立实验室可能取得的成果守口如瓶。但是,现在他终于忍不住披露了更出色的语音识别技术,这是智能手机时代引人关注的关键领域。

今天,百度公司发布了这位前谷歌研究员、斯坦福大学教授和Coursera联合创始人的首个研究结果。在12月18日发表于康奈尔大学图书馆(Cornell University Library)arXiv.org网站的一篇论文中,吴恩达和以研究科学家奥尼·汉努(Awni Hannun)为首的十位百度研究院的团队成员共同宣布,他们发明了一种新方法,能更精确地识别语音。这种应用于苹果(Apple)的语音助手Siri和Dictation服务以及谷歌的语音搜索的功能正在变得日益重要。吴恩达表示,在一项评估语音识别系统出错率的基准测试中,百度的Deep Speech语音识别系统击败了包括谷歌和苹果在内的其他技术。

具体来说,Deep Speech在车内或人群中等嘈杂环境下比其他语音识别系统的表现更出色。当然,关键是让语音识别技术在现实世界中真正发挥作用。吴恩达说,测试显示,在嘈杂的背景下,Deep Speech的语音识别能力优于其他几种语音识别系统——谷歌Speech API、wit.ai、微软的 Bing Speech和苹果Dictation,词汇辨识错误率比这几种技术低10个百分点以上。

百度提供了两位大学教授的正面评论。“百度研究院最近的工作有可能颠覆语音识别在未来的应用效果,”卡耐基梅隆大学(Carnegie Mellon University)工程学助理研究教授伊恩·莱恩(Ian Lane)在一份新闻稿中表示。百度公司要求,在今天上午发布论文前不要对外透露细节,因此我们无法联系谷歌、苹果和其他公司发表评论。如果以上各方选择随后发表评论,笔者会补充他们的观点。

像其他语音识别系统一样,百度的语音识别系统是以人工智能技术的一个分支为基础,称为深度学习。这类软件试图(以非常原始的形式)模拟大脑新皮层的神经层活动——大脑80%的思维活动发生在新皮层,因而深度学习系统能够学习如何识别声音、图像和其他数据的数字表现模式——理论上可以识别很多数据。吴恩达在接受采访时说,“第一代深度学习语音识别系统正在接近极限。”

百度团队采集来自9,600人的约7,000小时语音会话,大部分对话是在安静的环境中进行——不过有时讲话者戴着耳机,播放吵闹的背景音,因此他们就要改变自己的音高和语调,就像他们在嘈杂环境中讲话那样。然后,百度团队使用一种称为叠加的物理原理,在这些语音样本中加入大约15种噪音,比如餐馆、汽车和地铁的环境噪音。这些做法实质上把语音样本增加到10万小时的数据。然后,百度团队让语音识别系统学习在所有的噪音环境下识别语音。

吴恩达表示,这种方法比现有的语音识别系统更为简单。他们使用了一系列用来分析音素和语音其他部分的模块,这通常需要对模块进行手工设计,用到被为隐马尔可夫模型(Hidden Markov Models)的统计概率系统,需要大量的人力调适模板噪声和语音变化。吴恩达表示,百度的语音识别系统采用深度学习算法取代了这些模型,这种算法在递归神经网络或者模拟神经元阵列中进行训练,让语音识别系统更加简单。

然而,真正让这种方法可行的原因是强大的新计算机系统,这套系统使用了Nvidia等芯片制造商出品的多枚图形处理器(GPU)。GPU用于在个人计算机中加速图形处理。通过并行连接,这些处理器能够用比普通计算机处理器更快的速度训练语音识别模型,比吴恩达在斯坦福大学和谷歌工作中使用的系统快大约40倍,费用也更为经济合算。“虽然算法很重要,但开发出这套系统,很大程度上要归功于研发过程中的规模化,”他说,这种规模化,不仅在于计算机系统,还在于数据处理量。

如果没有这样的速度,对这么多数据进行分析是不可能做到的。吴恩达表示,这个系统比现有基于GPU的其他系统更为先进。“我们正在进入语音2.0的时代,”他说,“而这仅仅是个开始。”

吴恩达认为,随着互联网用户的文化水平门槛越来越低,他们更愿意使用语音而不是文字,因此语音识别技术的重要性将进一步提升。“让计算机和我们对话是个关键,”他说。吴恩达举了个最近在中国进行搜索查询的例子:“嗨,百度,你好吗?昨天中午我在一家街角小店吃了面条。你知道这家店明天还卖面条吗?”吴恩达承认,到今天为止,为这个请求提供答案依然非常困难,但是他认为更完善的语音识别将起到关键作用。

语音重要的另一个原因是,物联网的发展把现在所有无声的电子设备连接到网络。他设想在未来的某个时期,如果他有了孙子孙女,他们一定会惊讶于我们曾经使用电视遥控器,拥有不能对语音命令做出响应的微波炉。“语音是一项能够促进物联网成长的技术,”吴恩达说。

百度究竟要多长时间才能把这种全新的语音识别方法集成到其搜索和其他服务中,这一点吴恩达拒绝透露。但是被问及是否要用几年的时间时,他很快回答说,“天哪,用不了!”如此看来,这种技术很有可能在新一年的某个时候正式亮相。百度的Cool Box是一个可能应用这种语音识别方法的“试验性”项目,这个系统可以使用语音激活音乐播放要求。

在百度尝试提升自我、跻身于顶级互联网公司行列的努力中,吴恩达和他的团队的工作将发挥重要作用。这个团队现在大约有30名员工,明年人数可能会翻一倍。目前,百度主要服务于中国市场,但这家公司着眼于扩大其国际影响范围,这将涉及到开发世界顶级的语音识别、翻译和其他功能。

译 孟洁冰 校 李其奇