摘要:

酰胺偶联反应是药物发现和合成化学领域中最为关键的转化之一,广泛应用于各种药物分子的合成。然而,由于反应条件空间的广阔性和复杂性,如何高效地推荐最佳反应条件一直是一个巨大的挑战。该研究通过结合高通量实验(HTE)平台和嵌入“中间知识”的机器学习模型,显著提升了酰胺偶联反应产率预测的准确性和模型的泛化能力。

01

打开网易新闻 查看精彩图片

背景介绍

酰胺偶联反应(Amide coupling reaction)不仅仅是化学实验室里的一个普通反应,更是药物发现和合成化学领域中不可或缺的“基石”。我们日常生活中使用的许多药物,从抗癌药到抗生素,从心血管药物到神经系统药物,它们的分子结构中都可能含有酰胺键。酰胺键就像是分子世界的“骨架”,将不同的功能单元连接起来,形成具有特定生物活性的复杂分子。因此,高效、精准地构建酰胺键,对于药物的研发和生产至关重要。

打开网易新闻 查看精彩图片

1. 酰胺偶联反应

然而,一个酰胺偶联反应的成功与否,往往取决于一系列复杂的反应条件,包括偶联试剂、碱、溶剂、反应温度和反应时间等。这些条件组合起来,形成了一个庞大而复杂的“条件空间”。对于化学家而言,如何在如此广阔的条件空间中,快速而准确地找到最佳的反应条件,以获得高产率和高选择性的目标产物,一直是一个令人头疼的难题。传统的做法是依靠化学家的经验和大量的试错实验。这种方法不仅耗时耗力,而且效率低下,尤其是在面对新型底物或具有挑战性的反应时,往往会陷入漫长的实验筛选过程,严重阻碍了药物研发的进程。该研究巧妙地结合了高通量实验(High-Throughput Experimentation, HTE)平台和一种创新的“中间知识嵌入”策略(图2),显著提升了酰胺偶联反应产率预测模型的性能。

2. 酰胺偶联反应条件推荐研究

02

打开网易新闻 查看精彩图片

图文解析

1.数据基石:高通量实验(HTE)与数据质量的挑战

任何成功的机器学习模型,都离不开高质量的数据。在化学反应预测领域,数据的质量和多样性直接决定了模型的准确性和泛化能力。传统的化学反应数据主要来源于文献报道。然而,文献数据往往存在诸多局限性:首先,文献通常只报道成功的、高产率的反应,而对低产率甚至失败的反应鲜有提及,这导致数据集存在严重的“成功偏倚”,使得模型难以学习到反应失败的原因和边界条件。其次,不同实验室的实验条件、操作规程以及数据记录方式存在差异,导致数据一致性差,难以直接用于机器学习模型的训练(图3)。此外,文献数据往往缺乏对反应条件空间的系统性探索,难以全面覆盖各种可能的反应组合。

打开网易新闻 查看精彩图片

3多条件模型工作流程示意图,以甲胺与乙酸反应为例

为了克服这些挑战,高通量实验(High-Throughput Experimentation, HTE)应运而生。HTE是一种通过自动化和并行化技术,在短时间内进行大量实验的方法。它能够系统地探索反应条件空间,生成大规模、一致且包含成功与失败案例的实验数据。这篇研究正是利用了其内部的高通量实验平台,系统地收集了酰胺偶联反应的产率数据。最终,他们收集了超过47000个产率数据点,构建了一个丰富而多样的数据集(图3),为后续机器学习模型的训练奠定了坚实的基础。

打开网易新闻 查看精彩图片

4. 用SMiles ARbitrary Target Specification(SMARTS)语法编写的反应模板

2.智能预测:多条件模型开发与中间知识的魔力

有了高质量的数据,接下来就是构建能够准确预测反应产率的机器学习模型。在这项研究中,研究人员探索了多种机器学习算法和深度学习方法,包括XGBoost、支持向量机(SVM)、随机森林、AutoGluon以及基于Transformer的深度学习模型Yield-BERT和T5-Chem。这些模型的目标都是从反应物的结构和反应条件中学习规律,从而预测反应的产率。为了更严格地评估模型的性能,该研究采用了三种不同级别的测试集(图5):

(1)随机划分(Random Split):这是最常见的划分方式,数据集被随机分成训练集和测试集。虽然简单,但如前所述,其评估结果可能过于乐观。

(2)部分底物新颖性(Partial Substrate Novelty):在这种划分中,测试集中的反应至少有一个底物是模型在训练时未曾见过的。这使得评估更具挑战性,更能反映模型在面对部分新颖情况时的表现。

(3)完全底物新颖性(Full Substrate Novelty):这是最严格的评估方式,测试集中的所有底物组合都是模型在训练时完全未曾见过的。这种划分最能模拟真实世界中化学家需要预测全新反应产率的场景,也是衡量模型泛化能力的关键指标。

打开网易新闻 查看精彩图片

5. 三个级别测试集的示意图:随机拆分、部分底物新颖性和完全新颖性测试

研究结果显示,在随机划分和部分底物新颖性测试集上,模型的表现相对较好,但在完全底物新颖性测试集上,模型的性能普遍有所下降(图5)。这促使研究人员思考,如何才能进一步提升模型在面对完全新颖底物时的泛化能力。

为了解决这一难题,研究团队提出了一种创新的策略,在机器学习模型中嵌入反应中间体知识(Intermediate Knowledge Embedding)。他们观察到,在酰胺偶联反应中,酸在与偶联试剂作用后,会形成一个活化的中间体,这个中间体才是真正与胺反应的关键。传统的机器学习模型通常只关注反应物和最终产物,而忽略了反应过程中形成的中间体。研究人员认为,如果能将这些“中间知识”融入到模型中,模型就能更好地理解反应机理,从而更准确地预测产率。

他们选择了六种常用的酰胺偶联反应条件,并为每种条件设计了特定的SMARTS(SMILES ARbitrary Target Specification)模板,用于描述酸转化为活化中间体的过程。结果令人振奋,嵌入中间知识的模型性能显著提升,尤其是在完全底物新颖性测试集上。例如,在HATU和TBTU条件下,模型的R2值(一个衡量模型拟合优度的指标,越接近1表示拟合越好)分别从0.69和0.71飙升至0.86和0.84(图6)。这意味着模型在理解反应的本质方面取得了重大突破,能够更准确地预测全新反应的产率。

打开网易新闻 查看精彩图片

6.(a)使用HATU作为活化试剂将酸转化为中间SMARTS模式,以及(b)所选单条件模型工作流程的示意图

3.模型的泛化能力与实际应用:从预测到推荐

该研究通过化学信息数据库(如SciFinder)筛选了大量与药物发现和生物研究相关的酰胺偶联反应,并确保这些反应的底物组合与他们自己的HTE数据集完全不同。这意味着模型在预测这些外部文献反应的产率时,是真正面对“陌生”的挑战。结果令人鼓舞:即使在面对这些全新的外部数据时,嵌入中间知识的BERT模型依然表现出色,R2值达到了0.71,平均绝对误差(MAE)为7%,均方根误差(RMSE)为10%(图7和图8)。考虑到训练数据集的规模(约400个底物对),这样的性能已经非常强大,并且研究人员指出,随着更多数据的加入,模型的泛化能力有望进一步提升。

打开网易新闻 查看精彩图片

7. 257个外部文献反应示例的预测产率与实验产率

总而言之,这项研究不仅构建了一个高性能的酰胺偶联反应产率预测模型,更重要的是,它通过引入“中间知识”和严格的评估方法,显著提升了模型的泛化能力和实际应用价值。它从单纯的“预测”走向了更具指导意义的“推荐”,为化学家提供了强大的智能工具,有望加速新药的发现和开发进程。

打开网易新闻 查看精彩图片

8. 一些外部文献反应实例的预测结果

03

打开网易新闻 查看精彩图片

总结

这项研究揭示了“中间知识”在提升模型性能和泛化能力方面所扮演的关键角色。它证明复杂化学反应体系中,仅仅依靠输入和输出数据进行模式识别是远远不够的。将化学反应的内在机理,如中间体的形成和转化,以结构化的方式嵌入到机器学习模型中,能够极大地增强模型的理解能力和预测精度。这为未来化学人工智能的发展指明了方向:即从纯粹的数据驱动走向数据与知识双轮驱动,构建更具解释性、更符合化学直觉的智能模型。

参考文献

Chonghuan Zhang, Qianghua Lin, Chenxi Yang, Yaxian Kong, Zhunzhun Yu and Kuangbiao Liao Intermediate knowledge enhanced the performance of the amide coupling yield prediction model. Chemical Science, 2025, 16, 11809-11822.

声明:

1. 版权:推送内容仅供学习交流分享使用,无任何商业用途,如有侵权,请联系后台删除或修改,感谢支持。

2. 投稿:非常欢迎各位老师在公众号上介绍课题组前沿或经典研究成果!后台或邮箱联系即可!