聚合物是日常生活的重要组成部分。他们的化学空间是如此之大,它提供了前所未有的机会,以及重大的挑战,以确定合适的应用特定的候选。

在此,来自美国佐治亚理工学院的Rampi Ramprasad等研究者提出了一个完整的端到端机器驱动的聚合物信息学管道,可以以前所未有的速度和准确性搜索这个领域的合适候选物。相关论文以题为“polyBERT: a chemical language model to enable fully machine-driven ultrafast polymer informatics”发表在Nature Communications上。

论文链接:

https://www.nature.com/articles/s41467-023-39868-6

打开网易新闻 查看精彩图片

聚合物是研究者日常生活中不可或缺的一部分,也是未来创新技术进步的重要工具。聚合物化学空间的绝对规模和多样性为制作精确匹配应用需求的聚合物提供了机会,但也带来了高效和有效浏览这个巨大空间的挑战。新兴的聚合物信息学领域允许深入聚合物领域,并展示了机器学习(ML)模型克服这一挑战的潜力。ML框架在聚合物性能预测器的开发和解决逆向问题方面取得了实质性进展,在这些问题中,满足特定性能要求的聚合物要么从候选集中识别出来,要么使用遗传或生成算法进行新设计。

聚合物信息学管道的一个重要步骤是将聚合物化学结构转换为通常称为指纹、特征或描述符的数字表示(见图1a中的蓝框)。过去的手工指纹识别方法利用化学信息学工具对聚合物的关键化学和结构特征进行数字编码。尽管这样的手工指纹建立在宝贵的直觉和经验之上,但它们的开发是乏味的,涉及复杂的计算,通常在模型训练和推理期间消耗大部分时间,并且缺乏对所有聚合物化学类的泛化(即,可能必须以特别的方式将新特征添加到特征目录中)。因此,使用手工指纹的ML管道在探索新的聚合物化学类别时容易出现错误。此外,手工制作的指纹对于完全机器驱动的管道的开发和部署也存在障碍,这些管道适用于云计算和高吞吐量环境的可扩展性。

打开网易新闻 查看精彩图片

图1:polyBERT的聚合物信息学。

克服前面提到的限制的一种方法是用完全机器制作的“变压器”指纹取代手工制作的指纹(见图1a右侧管道)。Transformers是最近在自然语言处理(NLP)领域开发的,并迅速成为ML语言建模的黄金标准。在这项工作中,研究者设想简化分子输入行输入系统(SMILES)字符串已被用于表示聚合物作为聚合物的“化学语言”。研究者使用数以百万计的聚合物微笑(PSMILES)字符串来训练一个名为polyBERT的语言模型,以成为聚合物化学语言的专家。polyBERT与多任务深度神经网络相结合,实现了完全端到端机器驱动的聚合物信息管道,使用并释放了人工智能方法的真正力量。多任务深度神经网络利用多保真度和多属性数据集的内在相关性,在云计算环境中轻松扩展,并推广到多个预测任务。

最近的研究证明了在分子化学领域使用变压器的好处。例如,Wang等人用分子SMILES字符串的数据集训练了一个BERT模型(最常见的通用语言模型)。使用BERT的分子潜在空间表示作为指纹,作者表明他们的方法优于其他指纹识别方法(包括无监督递归神经网络和图神经网络的指纹)。同样,Schwaller等人开发了一个Transformer模型来预测反应物和试剂分子的反合成途径,该模型优于反应预测文献中已知的算法。Xu等人最近的一项研究(几乎与研究者同时进行,这可以从研究者提交的arXiv文件中得到证实)使用RoBERTa模型(BERT Transformer模型的演变)进行聚合物性能预测。他们的训练策略首先涉及使用500万个聚合物的RoBERTa模型的预训练(无监督训练),然后是一个微调步骤(监督训练)来直接预测聚合物的性质。尽管他们的工作在无监督和有监督训练任务中使用的数据集比研究者的小得多,但他们发现他们的微调RoBERTa模型优于图神经网络、长短期记忆和其他模型;研究者确实注意到,最近的工作并没有将他们基于Transformers的模型与当前最先进的手工指纹和多任务学习(研究者在当前的贡献中做了)进行直接比较。

另一种很有前途的神经网络结构,即图神经网络,它将化学结构作为图来处理,过去已经应用于分子和聚合物化学空间。与transformer相反,图神经网络将原子表示为节点,将键表示为图的边,从而编码原子之间的直接连接和扩展连接。因此,图神经网络不像transformer那样直接基于PSMILES字符串,而是依赖于需要计算并分配给每个节点的一组初始特征向量(如原子类型、隐式价等)。例如,Park等人比较了图卷积网络和流行的扩展连接圆形指纹19对聚合物热性能和机械性能的预测,发现两种模型的预测性能相似。类似地,Gurnani等人使用多任务图神经网络来预测聚合物的性质,但在重边界原子之间引入了边缘,以结合聚合物链的循环拓扑结构。他们将图神经网络和多任务学习相结合的方法在几乎所有情况下都优于基于传统手工制作的聚合物基因组指纹的预测。以类似的方式,Aldeghi和Coley在聚合物链之间引入了低重量边,从而可以预测交替、随机、嵌段共聚物和末端化学基团。研究者还注意到,与Transformers图不同,神经网络通常是端到端训练的,也就是说,它们的潜在空间表示(指纹)是在具有聚合物特性的监督下学习的。这样做的结果是,在基于transformer的方法中,学习到的指纹是独立于聚合物性质的(因此可以一劳永逸地确定),而图神经网络架构通常是这样构建的,学习到的表示依赖于所考虑的特定性质。研究者注意到,自监督图神经网络最近已经被开发出来,它通过原子、键和子图屏蔽来学习分子图,这是一种类似于Transformers的方法。

在这里,研究者提出了一个完整的端到端机器驱动的聚合物信息学管道,可以以前所未有的速度和准确性搜索这个领域的合适候选物。这项工作有几个关键因素。首先,研究者通过枚举结合从超过13000个合成聚合物的列表中提取的化学片段,生成了一个包含1亿个假设聚合物的数据集。接下来,研究者训练polyBERT,一个基于deberta的编码器转换器,使用这个假设的聚合物数据集成为一个聚合物化学语言学家。在训练期间,polyBERT学习将输入的PSMILES字符串转换为研究者用作聚合物指纹的数字表示。最后,研究者使用研究者的多任务机器学习框架将polyBERT指纹映射到大约36种聚合物性质,以产生完全由机器驱动的超快速聚合物性质预测器。为了进行基准测试,将这种新的端到端属性预测管道的性能(准确性和速度)与之前首创的最先进的手工制作的基于聚合物基因组(PG)指纹的管道进行比较。利用超快polyBERT聚合物信息管道,研究者能够预测1亿种假设聚合物的性质,从而找到聚合物宇宙的性质边界。这项工作通过利用语言、数据和人工智能模型的真正力量,有助于加快聚合物的发现、设计、开发和部署。

打开网易新闻 查看精彩图片

图2:指纹的二维均匀歧管近似和投影55(UMAP)图。

打开网易新闻 查看精彩图片

图3:三个聚合物的注意图和神经元激活。

打开网易新闻 查看精彩图片

图4:聚合物指纹的计算时间。

打开网易新闻 查看精彩图片

图5:Polybert(PB)和聚合物基因组(PG)指纹的测定系数(R2)性能值。

打开网易新闻 查看精彩图片

图6:聚合物简化的分子输入系统(PSMILES)字符串的翻译,乘法和置换方差。

综上所述,总的聚合物宇宙是巨大的,但目前受到实验,制造技术,资源和经济方面的限制。考虑到不同的聚合物类型,如均聚物、共聚物和聚合物共混物,以及新的未被发现的聚合物化学物质、添加剂和加工条件,聚合物世界中可能的聚合物数量确实是无限的。搜索这个由属性预测支持的超大空间受到预测速度的限制。在合理的时间内准确预测了1亿种假设聚合物的29种性质,表明polyBERT是对这个巨大的聚合物宇宙进行大规模探索的推动者。polyBERT为发现新型聚合物铺平了道路,其速度比最先进的信息学方法快100倍(并且可能比更新的GPU一代更快)-但与较慢的手工指纹方法具有相同的精度-利用最初为NLP开发的基于transformer的ML模型。polyBERT指纹是密集的和化学相关的聚合物的数值表示,充分衡量聚合物的相似性。它们可以用于任何需要聚合物数值表示的聚合物信息学任务,如属性预测(如图所示)、聚合物结构预测、基于ml的合成助手等。polyBERT指纹通过用polyBERT指纹取代手工制作的指纹,具有巨大的潜力来加速过去的聚合物信息学管道。polyBERT也可以使用在自监督学习过程中训练的polyBERT解码器,直接基于指纹(可以与属性相关)设计聚合物。然而,这需要对polyBERT进行再培训和结构更新,因此是未来工作的一部分。(文:水生)

本文来自微信公众号“材料科学与工程”。欢迎转载请联系,未经许可谢绝转载至其他网站。