分子的理化性质,如前线轨道能级、化学键能、光谱特征等,构成了理解和预测分子化学行为的基础。分子理化性质的精准认识,是人类探索分子世界的重要途径之一,不仅有助于深入理解化学反应的微观机制,还能够有效指导新反应的设计与开发,是化学科学研究的长期焦点之一。

随着化学数据的不断积累和人工智能技术的显著进步,机器学习方法在化学中的应用取得了显著进展,在分子理化性质的预测上展现了重要潜力。基于大规模的分子性质数据与创新的分子建模架构,人工智能模型能够成功捕捉分子结构与理化性质之间的高维联系,并据此准确预测分子性质。在QM9等代表性的分子性质数据集上,前沿的机器学习模型不仅在预测精度上达到了媲美传统量化计算的水平,同时在计算效率上实现了几何级数的增长。分子性质的智能预测为化学家认识和探索化学世界提供了全新的策略,不仅将加速化学研究的步伐,也为医药、材料等相关学科提供了新的助力。

本文聚焦于有机分子的理化性质预测,不涉及药化性质等生物活性分子的应用场景,从数据集、代表性场景等方面探讨该领域的前沿进展,并就领域的研究现状和挑战进行总结和展望。

PART.01

有机分子理化性质数据库与数据集

有机分子的结构复杂、性质多样,共同组成了一个关于理化性质的庞大构效空间,成为了机器学习建模的数据源泉。本节简要概述了代表性的有机分子理化性质数据库与数据集 ( 表1 ) 。

表1 代表性分子理化性质数据库与数据集

PART.02

机器学习方法

自1956年达特矛斯会议首次提出人工智能概念,至2010年深度学习技术的兴起,机器学习方法持续演进与进步。2022年,ChatGPT的推出进一步揭示了AI在众多领域的广泛应用潜力。这些新兴的机器学习方法为有机分子理化性质的预测开辟了新的研究路径。本节将概述有机分子理化性质预测中普遍采用的机器学习流程,并介绍当前领域内一些代表性的分子编码、算法架构与机器学习策略。

2.1

机器学习流程简介

传统的判别式监督学习在有机分子理化性质预测中应用广泛,通过在数据集上进行训练,得到一个模型来联系数据集中的输入和输出,进而建立分子结构与其理化性质之间的数学模型并用于新分子的性质预测。图1描述了数据驱动理化性质预测的常见流程.

图1 分子性质机器学习建模的基本流程

2.2

机器学习方法进展

机器学习的持续发展促进了有机分子理化性质预测的精确度和效率的显著提升。目前,多种机器学习模型已被应用于这一领域。为了高效利用数据并提高模型的预测性能,研究者们探索了多种分子编码与机器学习算法。本小节简要概述领域前沿的分子编码、神经网络(NN)框架以及机器学习方法。

PART.03

具体机器学习模型在有机分子理化性质预测上的应用

近年来,围绕如光谱性质、轨道能量、pKa、BDE、氧化还原电势、Mayr方程参数等代表性的有机分子理化性质,机器学习建模的精度和泛化能力取得了长足的进步。

图2 光谱性质预测的部分最近进展. (a) NN模型快速预测酰胺I带红外谱图的工作流程; (b) NN模型预测氨基酸的拉曼光谱; (c) 全自旋系统精准预测的工作流程

图3 分子轨道能量预测的部分最近进展. (a) 利用轨道加权平均方法预测轨道能量和位置的原子神经网络(AtNN)示意图. (b) 机器学习方法快速准确地估计有机光伏材料特性

图4 pKa与BDE预测的部分最近进展. (a) 使用NN或XGBoost建立整体pKa预测模型的工作流程. (b) 使用 ANI-2x 获得的神经网络特征进行蛋白质pKa预测. (c) 预测BDE的GCN结构概述

图5 氧化还原电势与Mayr方程参数预测的部分最近进展. (a) 机器学习加速氧化还原电势预测的流程. (b) 通过机器学习研究亲核性和亲电性的一般工作流程

PART.04

总结与展望

近年来,随着化学数据的不断积累和人工智能技术的显著进步,数据驱动的有机分子理化性质预测经历了跨越式的发展。在光谱性质、轨道能量、pKa、键解离能(BDE)、氧化还原电势以及Mayr参数等关键的分子性质方面,机器学习技术已经展示出了其卓越的预测能力。这些工作不仅能够在部分例子上达到了与传统量子化学计算相媲美的精度水平,而且在效率上实现了显著的提升,使得海量的分子性质预测成为了可能。这种新型的智能预测工具不仅将加速化学研究的步伐,而且为功能分子的设计和预测提供了强有力的支持,有望推动化学与材料科学的快速发展。

尽管分子性质的智能预测取得了显著进步,该领域仍面临一些关键的挑战和局限。首先,标准化且大规模的分子性质数据库的缺乏限制了机器学习模型的训练和验证。相对于理论上1060数量级的分子化学空间,现有的数据量远远不足以覆盖广泛的化学多样性。其次,尽管机器学习模型在预测精度和效率上取得了一定的平衡,但这种平衡尚未达到完全可以取代传统的DFT计算的水平。特别是对于DFT难以处理的复杂体系,机器学习预测也难以胜任。最后,目前的预测建模工作与新颖功能分子设计的联系并不紧密,多数研究停留在数据集本身的建模展示阶段,而未能实质性地应用于新功能分子的创造和设计中,因此在化学领域的影响力和共识还需进一步提升。

展望未来,为了充分利用机器学习在分子科学领域的潜力,可以从以下几个方向努力:一是构建更全面和标准化的分子性质数据库,以支持更复杂的模型训练和更广泛的化学空间探索。二是开发基于化学理论和原理的人工智能模型框架,而非仅仅对现有处理文字或图像的AI技术进行简单的修改。基于对化学过程本质的理解,将这些原理融合到算法中,以更精确地模拟和预测复杂的分子行为。三是加强预测模型与实验化学家的互动,将模型预测更直接地应用于新分子的设计和合成,以真正实现机器学习在化学创新中的应用。我们充分相信,在数据、建模和应用的协力发展下,分子科学将在AI时代迎来更大的突破。

孙一舟,汤缪炅,张硕卿*,洪鑫*. 数据驱动的有机分子理化性质预测. 科学通报, 2025, 70(4-5): 492–507

https://doi.org/10.1360/TB-2024-0812

转载、投稿请留言

| 关注科学通报 | 了解科学前沿