蛋白质结构建模的预训练
在自然语言的理解与生成中,对语言的建模本质上是对序列的建模,因此,以上提到的预训练技术也可以应用到其他序列建模任务中。除了自然语言和时间序列,人们第一时间想到的另一种长序列就是生物中的蛋白质序列。蛋白质是组成人体一切细胞、组织的重要成分,机体所有重要的组成部分都需要有蛋白质的参与。对蛋白质进行科学的序列建模,能够直接造福于临床医学、制药等事关人类生命健康的重要产业。蛋白质和基因序列预训练模型将蛋白质和基因序列作为训练输入,以此为基础探索人工智能在生命科学中的应用。人类在生物和医学等领域丰富的研究成果积累了大量蛋白质和基因序列数据,为构建这样的模型系统提供了坚实的基础。具体来说,通过对蛋白质的预训练,我们可以探索预训练模型在以下几个方向的应用。
蛋白质结构预测:蛋白质研究中最重要的问题之一是蛋白质二级结构预测。蛋白质的二级结构是了解蛋白质功能的一个重要特征,特别是当感兴趣的蛋白质在进化上与具有已知结构的蛋白质不相关时。蛋白质二级结构预测工具通常用于为更高级别的模型构建提供更丰富的输入特征。从机器学习的角度来看,蛋白质二级结构预测可以看成是一种序列到序列(seq2seq)的任务,从输入的氨基酸映射到表示螺旋或折叠的标签。预训练好的大规模蛋白质语言模型只需通过少量相应的数据进行微调即可。
蛋白质和药物设计:蛋白质结构预测任务是通过已知的氨基酸序列预测结构。除此之外,更难的蛋白质设计任务是已知蛋白质结构来推导氨基酸序列,或者在两者皆不确定的情况下同时设计结构和序列。这样的任务可以在抗体设计中找到应用。如果我们将设计目标定位为生成小分子而不是蛋白质大分子,那么就可以在制药任务中找到应用。除上述两个方向之外,预训练蛋白质模型还可以应用在细胞分类、基因调控关系发现、细菌耐药性分析等任务中,前景广阔。
在这一方向上,Facebook AI Research(FAIR)在2020年发布了具有十亿参数规模的ESM模型。ESM在近2.5亿蛋白质序列上进行了训练,并在一系列蛋白质下游监督学习任务中取得了显著的效果。2021年,FAIR又进一步发布了基于生物学多序列比对(Multiple Sequence Alignment,MSA)的ESM-MSA-1模型,以更少的参数量再次刷新原ESM模型的结果。

打开网易新闻 查看精彩图片

预训练模型的应用挑战
虽然现有的预训练模型已经在多个领域上实现了应用,但是层出不穷的任务领域、千变万化的应用场景,也为预训练模型提出了更多挑战。
领域适配:预训练模型的一大特点是其可以通过学习大规模通用领域上的知识,获得一个较好的初始化点,通过微调来向不同的下游任务领域进行适配。但是,当预训练数据的领域和真实的下游任务数据的领域相差太远时,模型便难以在这些任务上取得较好的表现。同时,随着模型参数量的增大,有限的下游领域数据也逐渐难以支撑这些参数的微调。虽然有一些研究工作尝试解决这些领域适配难题,但是由于真实场景中不同领域之间的差异难以衡量,各种下游领域的数据量有很大不同,使得很 难有一种通用的方法覆盖所有领域适配问题,仍然需要根据不同情况进行有针对性的设计。另外,预训练模型在向特定领域适配时,有可能产生“灾难性遗忘”现象,即丢失了在预训练阶段储备的“知识”,限制了预训练技术的优势。如何让模型在微调的时候“不忘本”,是一个十分值得研究的问题。

任务适配:
模型在预训练过程中的任务通常是针对大规模无监督文本设计的,但是其下游任务通常是有监督任务,这就造成了模型预训练目标和在下游任务上使用的训练目标有较大的差异。如何构造更通用、更容易向下游任务进行适配的预训练目标,或者设计中间的训练过程来弥补这种差异,是非常值得探索的问题。
另一方面,尽管相比于预训练数据,下游任务领域的数据通常比较少,可以通过微调模型进行适配,但是日益增大的模型参数量使得微调也成为了一个十分消耗资源的过程,提升了普通人使用预训练模型的门槛,也限制了预训练模型在更多场景下的应用。并且,对于超大参数量的模型,现有的微调方法很容易在下游数据较少的情况下使模型产生过拟合。因此,许多人尝试设计更有效的微调方法或采用零样本或少样本学习的方法实现超大规模预训练模型的应用,避免繁重的微调过程。这类方法的研究现在还处于起步阶段,还有很大的发展空间,十分值得我们进一步探索和研究。