SIGS优硕风采 | 林子博：面向知识增强和过程可控的自然语言生成关键技术研究|林子博|清华大学|自然语言生成|计算机|论文

编者按

2021年，清华大学深圳国际研究生院校优秀硕士学位论文篇数再创历年新高，占全校优秀硕士论文31%，共有63篇荣获清华大学优秀硕士学位论文，其中44篇为我院专职教师指导。本系列推送将向大家展示我院获奖同学的科研成果风采。

论文中文标题：面向知识增强和过程可控的自然语言生成关键技术研究

论文英文标题:

Research on Natural Language Generation based on Knowledge Enhancement and Controllable Modeling

作者：林子博

指导教师：郑海涛

培养院系：计算机系

学科：计算机技术

学习感言：务实勤奋，方得始终

获得荣誉：清华大学优秀硕士毕业生、清华大学优秀硕士学位论文

研究背景/选题意义/研究价值

在人工智能技术中，自然语言生成是最接近人类智能的技术，其任务目标是给定输入文本，通过计算机自动化生成一段高质量的自然语言文本。与文本分类等特征提取为主的技术不同，自然语言生成技术需要模拟人类说话的行为，而人类的语言体系只有基本的构词语法规则，在话语的表达力方面是无规则、无特征可利用的。计算机如果要实现跟人类进行流畅性的语言交流，就需要涉及到对语言的更深层理解，通过语义理解、语义建模和表达构建等更抽象的技术来实现。从技术实现层面来看，自然语言生成技术需要实现对文本语义的高层次抽象化理解，因此相比文本分类、信息检索等任务，其技术挑战性也更独特，需要使用到不同的技术体系。自然语言生成技术，在技术实现上具有挑战性，可应用的场景也更加贴合人们的生活，对于互联网产业来说有着丰富的产业前景和应用价值，也是实现高阶人工智能系统所必须攻破的技术难题之一。

主要研究内容

论文从面向知识增强和可控建模角度出发，在复述生成任务中利用外部语言学知识来提升生成文本的多样性和语义表现力。在风格化对话生成任务中，通过提取回复原型作为生成文本的模板以及通过逐步调节的方式将风格化信息加入到生成的回复中，实现文本的可控性。在回复选择任务中，利用现有的生成模型来构造灰度数据，通过生成的样本来提升回复选择算法的性能，从而验证了文本生成任务的实用性。论文在三个任务上进行了大量的实验，在多语种语料上面与各类最新的方法进行比较，验证论文中提出的有效性和泛化性的方法。

论文主要创新点

1、提出基于语言知识增强的复述生成模型，利用外部语言知识库提供的同义词对文本进行生成式改写，提高文本生成的多样性。

2、提出基于原型改变风格的对话生成框架，利用检索回复中包含的有用信息来对风格化对话生成的过程进行调控，提高文本生成的可控性。

3、提出基于生成式灰度数据增强的对话回复选择算法，利用现有生成模型的语义建模能力构造灰度数据，提高文本生成的实用性。

学位论文相关学术成果

[1] Lin Zibo, Li Ziran, Ding Ning, et al. Integrating Linguistic Knowledge to Sentence Paraphrase Generation[C]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(05):8368-8375.

[2] Lin ZiBo, Cai Deng, Wang Yan, et al. The world is not binary: Learning to rank with grayscale data for dialogue response selection[C]. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2020:9220-9229.

[3] Li Ziran, Lin Zibo, Ding Ning, et al. Triple-to-Text Generation with an Anchor-to-Prototype Framework[C]. Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence, {IJCAI} 2020:3780--3786.

来源|培养处

策划|陈金静、兑晓晴

文、图|林子博

编辑|陈誉之

排版|姚诗诗

中文微信公众号：清华大学深圳国际研究生院

英文微信公众号：Tsinghua SIGS

新浪微博：@清华SIGS