清华大学通过深度学习，快速从大量文献中提取生物医学实体关系|医学|实验|文献|清华大学

理解药物、靶点、病毒、副作用等等生物医学实体之间的相互作用规律，是生物医学研究者们长期以来致力于探索和研究的问题，关于这些作用规律的研究成果广泛分布在超过3000万篇的科研文献当中，且文献的数量还在不断增加。

目前，大多数知名的生物医学数据库，例如DrugBank、CTD、SIDER和BioGRID，都是由人类科学家花费大量的时间和精力从科学文献中整理而来的。

虽然深度学习（Deep Learning）技术可以被用来加速这一过程，但在生物医学这种专业性领域，大规模的训练数据却并非能够轻易得到。

近日，清华大学交叉信息院曾坚阳研究组在 Nature 子刊 Nature Machine Intelligence杂志发表了题为：A novel machine learning framework for automated biomedical relation extraction from large-scale literature repositories的研究论文。

该论文提出了一种基于远监督的深度学习框架，能够在不依赖于人工标注数据的情况下有效利用大规模的生物医学文献语料。此外，作者所提出的集成了隐式句法树学习和注意力机制的模型，在多项生物医学关系抽取任务当中，都取得了领先的实验结果。

这项研究成果表明，借助这种新型的机器学习框架，研究者们能够快速从大量文献中筛查感兴趣的生物医学实体关系信息，所得到的文献支撑将对后续开展药物研发、药物重定位等研究起到重要的指导作用。

目前，该关系抽取框架已成功应用到多个生物医学场景当中，包括：

1. 通过抽取出的提示性信息指导了若干湿实验验证，从而确认了新的药物-靶点作用关系。

2. 在一项针对新冠肺炎的老药新用研发任务中，该关系抽取模型被应用到一个回顾性研究当中，即通过查找文献支持来验证针对“非典”（SARS）或“中东呼吸综合征”（MERS）的老药新用策略的可行性，从而间接证明该老药新用策略针对COVID-19的有效性。

链接：https://www.biorxiv.org/content/10.1101/2020.03.11.986836v1

3. 针对更多的生物实体间的作用关系抽取，如病毒-宿主、药物-副作用间的关系抽取，该框架已在初步实验中验证了其有效性。

生物医学实体关系抽取的流程图

总的来说，这项工作借助远监督与深度学习技术，通过机器对生物医学文本进行自动的语义分析，从而提取出研究者们所感兴趣的生物医学关系信息，这大大降低了人工获取信息的成本。

据悉，该论文通讯作者为清华大学交叉信息院曾坚阳副教授和赵诞助理研究员，第一作者为清华大学交叉信息研究院硕士生洪礼翔。该研究由国家自然科学基金、南京图灵人工智能研究院和中关村海华前沿信息技术研究院支持。

论文链接：

https://www.nature.com/articles/s42256-020-0189-y