编者按

为创新科协系统培育青年科技人才的新模式,密切联系和有效服务青年科技工作者,最大限度激发青年科技工作者的创新创造创业活力,把优秀青年科技人才集聚到党和国家事业中来,中国科协于2015年11月启动“青年人才托举工程”。自立项以来,“青托工程”培养了大批优秀的科研新人,他们在各自的研究领域里取得骄人的成绩。自即日起,“科协改革进行时”推出“青托风采录”栏目,陆续为您刊发“青托”人物故事,敬请关注。

科幻电影中经常有酷炫的人工智能亮相,如《流浪地球》中的领航员空间站核心智能主机MOSS,它在刘培强决定驾驶空间站去自杀式爆炸的时候说:“不能指望人类完全理性,那是不可能的。”抛开空间站、行星发动机等的设定,光MOSS的这一句话就展现了超越当下的科技水平。因为这是一句“吐槽”!一个会“吐槽”的人工智能意味着什么?这说明它真正理解刘培强的语言和举动,且有着强烈的价值判断能力。而目前的人工智能机器人顶多可以做到语音识别和命令理解,连语义理解都无比困难。

举例来说,当你问iPhone手机的语音助手Siri“房间怎么像蒸笼一样”,它只会“无言以对”地自行跳转到搜索网页界面,而绝不会“闻弦歌而知雅意”地问你是否要打开空调,更不会心血来潮地吐槽“你衣服穿多了吧”。

为什么会这样?究其根本,是因为Siri并不能理解“房间像蒸笼”的意思。“对于我们来说,这句话很好理解,但其实牵涉到许多知识。首先是常识知识——‘蒸笼’是什么?其次是世界知识——‘像蒸笼’说明热,那就需要开空调;甚至更进一步的行业知识——空调厂商的股票或许会大涨。人类会在日常生活中潜移默化地得到许多知识,而人工智能不可以,所以它们很难理解我们的语义。”清华大学计算机系自然语言处理与社会人文计算实验室副教授刘知远解释说。

谈及人工智能自然语言处理(natural language processing,简称“NLP”)的话题,这位34岁的年轻学者兴致勃勃。这不难理解,毕竟他不仅是第二批中国科协青年人才托举工程的入选者,还在今年年初凭借“知识指导的自然语言处理”入选了《麻省理工科技评论》组织评选的第二届中国区“35岁以下科技创新35人”榜单,获“先锋者”称号。

向“弦外之音”发起挑战

刘知远所在的实验室很不“高大上”。

若不是外面挂着的实验室牌子,记者会以为自己误入了一家互联网公司——眼前除了计算机还是计算机,上面飘着一行行看不懂的代码,不像别的学院有高精尖的仪器设备,看上去非常接地气。

打开网易新闻 查看精彩图片

“这并不奇怪,我们的工作其实和程序员有些类似,不管是开发算法还是开源工具包,都得跟计算机打交道。”刘知远幽默地说到,“我们想让人工智能理解自然语言,就必须利用编程语言开发算法去实现。”

听上去像是在说绕口令,其实很好理解。所谓自然语言,就是人和人之间进行交流时所使用的语言,是人类智能的集中体现,如汉语、英语、法语、德语等;而编程语言则是专门设计出来向计算机发出指令的语言,如Python语言等。对于刘知远来说,前者是目标,后者是手段。

《麻省理工科技评论》用“知识指导的自然语言处理”来概括刘知远取得的成果,而他本人更精简地用三个关键词作了总结,那就是“语言”“知识”“学习”。

首先是“语言”,指如何在人工智能的范畴,让计算机更好地理解自然语言,并且用自然语言与人类进行交流。

第二个关键词“知识”泛指人类对物质世界及精神世界探索的结果总和。通常情况下,人和人之间进行交流时,其实在有意无意中掺杂了大量的知识。当A说“我们把香蕉给猴子,因为它们饿了”,“它们”指的是“猴子”;B说“我们把香蕉给猴子,因为它们熟透了”,“它们”指代了“香蕉”。人工智能可以分析出两句中的“它们”都是代词,但要更进一步地知道其指代的东西是什么,就必须结合人类的各种知识,了解猴子和香蕉的属性,融会贯通到自然语言处理的计算模型中,再形成深层次的推理和理解。

“语言”和“知识”呼唤第三个关键词“学习”。知识是无穷无尽的,要让计算机用比较快速的方法学习到知识,就要让其自主地开展深度学习,自动化地把知识获取和知识应用不断拓展,因此学习的算法就显得无比重要。

“所谓‘知识指导的自然语言处理’就是这样一个整体,指的是如何用知识去驱动计算机的相关算法,从而更好地实现自然语言的理解和生成,让计算机在指令工作的模式之外,真正与人进行深层次的交流。”刘知远补充说,“这就是我一直在做的工作。”

不难发现,刘知远所做的工作与现在传播甚广的深度学习有一个显著区别。简单来说,现有的深度学习是一种数据驱动的模型。以机器翻译为例:计算机会在阅读大量翻译句段后学习词语的用法、组句的手法等,再去翻译成另一种语言,但它不会理解这句话到底是什么意思。而它们不理解的语义恰恰是刘知远追求的,他一再表示:“语言之所以被认为是人类智能的集大成者,绝不在于字面上的主语谓语宾语构成,或者词语之间的修饰关系,更重要的一定是语义——不仅是字面意思,还包括弦外之音。”

当知识图谱“遇见”深度学习

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

不得不说,对于他本人来说,无论理论上的可行性有多高,只有看到成果做出来,他才能真正放下提着的心。而在松了一口气的同时,更令人期待的是,随着知识图谱构建得更全面,未来的提升空间是巨大的,有望在攀折自然语言处理这一高岭之花的路上留下浓墨重彩的一笔。

“三无”本科生的逆袭之路

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

知乎大V的自白

打开网易新闻 查看精彩图片

来源:千万英才