综述：药物研发中的机器学习|神经网络|算法|聚类|药物研发|论文

人工智能与药物发现密切相关，神经网络、深度学习等技术应用于制药领域，展示出机器学习以新的方式改变药物发现过程。

本篇文章从 8 个主题的研究中总结 2022 年药物研发中人工智能的应用，体现该领域未来发展的方向。

主题 1：深度神经网络在 QSAR 研究中的效果

QSAR 全称Quantitative structure-activity relationship，译为定量构效关系，是指使用数学模型来描述分子结构和分子的某种生物活性之间的关系。

药物研发中一般 QSAR 应用的两个最成功的机器学习算法是随机森林 (RF) 和深度神经网络(deep neural networks,DNN)，在 2013 年 Kaggle 挑战赛 (Kaggle Merck Molecular Activity Challenge 2013) 和 2015 年的 Tox21 挑战赛(Tox21 Data Challenge 2015) 后，DNN 成为药物发现中 QSAR 应用的首选方法。

DNN 在某些情况下很有效，DNN 方法涉及包含数万个分子的非常大的数据集，其表现优于 RF 等更传统的方法。

论文 1

《Analyzing Learned Molecular Representations for Property Prediction》

内容简介：

对图形卷积神经网络和现有的采用的模型进行比较，在 19 个公共和 16 个专有的工业数据集上对模型进行广泛的基准测试。此外介绍了一个图卷积模型，该模型在公共和专有数据集上始终与使用固定分子描述符的模型以及以前的图神经结构相匹配或优于后者。

论文地址：

https://pubs.acs.org/doi/10.1021/acs.jcim.9b00237

论文 2

《Improvement in ADMET Prediction with Multitask Deep Featurization》

内容简介：

将每个分子明确表示为一个图来学习与手头每个化学任务最相关的特征。通过对这种明确的分子表征进行图形卷积，在预测ADMET特性方面取得了前所未有的准确性。

论文地址：

https://pubs.acs.org/doi/full/10.1021/acs.jmedchem.9b02187

论文 3

《The (Re)-Evolution of Quantitative Structure–Activity Relationship (QSAR) Studies Propelled by the Surge of Machine Learning Methods》

内容简介：

评估了几种机器学习方法的能力，偏最小二乘法 (PLS)、RF、支持向量回归 (SVR) 和梯度提升树 (XGBoost)，以预测非加性 SAR。使用了 Kramer (Nonadditivity Analysis 作者) 以前发表的一种方法来识别具有加性和非加性 SAR 的匹配分子对。然后用这些配对来构建不同预测难度的子集。该分析考虑了四种检测方法的数据集，LogD, solubility in DMSO, clearance in liver microsomes 及 permeability (cell line not specified)。在大多数情况下，DNN 在加性和非加性子集上的表现都优于其他方法。

论文地址：

https://pubs.acs.org/doi/full/10.1021/acs.jcim.2c01422

但 DNN 并非任何时候都是 QSAR 研究中的首选方法。

论文 4

《Simple nearest-neighbour analysis meets the accuracy of compound potency predictions using complex machine learning models》

内容简介：

化合物效力预测是机器学习在药物发现中的一个普遍应用，而深度学习是否能进一步推进效力预测仍不清楚。简单的近邻分析法始终符合或超过了被视为该领域最先进的机器学习方法的准确性。

论文地址：

https://www.nature.com/articles/s42256-022-00581-6

论文 5

《Exposing the Limitations of Molecular Machine Learning with Activity Cliffs》

内容简介：

作者构建了包含活性悬崖的数据集，并评估了机器学习模型预测这些现实但具有挑战性的数据集的能力。该分析包括许多传统的机器学习方法，包括 RF、梯度提升机（GBM）、SVR 和 kNN。为了对算法和表征进行基准测试，作者将几个指纹和描述符集与前面提到的算法进行了耦合。此外，该研究还包括一系列 DNN 方法，包括消息传递神经网络（MPNN）、图卷积神经网络 (GCN)、图注意转化器 (GAT) 和注意指纹 (AFP)。这些方法是根据它们使用来自 ChEMBL 的 30 个数据集预测生物活性的能力来评估的。作者报告了在活性悬崖分子上计算的均方根误差 (RMSE)和 RMSEcliff。结果 SVM、GBM 和 RF 加上 ECFPs 在整体和活性悬崖数据集上都提供了最佳性能。

论文地址：

https://pubs.acs.org/doi/10.1021/acs.jcim.2c01073

这些论文的重要性提现在两方面，一是它们帮助消除了 DNN 总是 QSAR 模型的最佳选择这一看法。二是引入了新的、更现实的基准数据集和策略，希望能取代日常使用的一些有缺陷的基准。

主题 2：深度学习为蛋白质-配体对接提供新方法

2022 年新的蛋白质-配体对接方法出现，使用现有的蛋白质-配体复合物的结构来学习配体和蛋白质结合位点之间的关系，并搜索整个蛋白质表面。本质上这些程序同时解决了两个问题；确定结合位点和确定配体的对接姿势。

论文 1

《EquiBind: Geometric Deep Learning for Drug Binding Structure Prediction》

内容简介：

麻省理工学院提出 EquBind 对接程序，该程序使用深度学习将蛋白质上的一组点与配体上的对应点对齐。

论文链接：https://arxiv.org/abs/2202.05146

论文 2

《DiffDock: Diffusion Steps, Twists, and Turns for Molecular Docking》

内容简介：

研究 1 中的团队还开发了一种新的生成方法来解决对接问题。DiffDock 方法使用扩散迭代搜索空间的平移，旋转和扭转变化。DiffDock 的搜索过程由一个新颖的可信度评分指导，它允许在多个姿势之间进行选择。

论文链接：https://arxiv.org/abs/2210.01776

论文 3

《TANKBind: Trigonometry-Aware Neural NetworKs for Drug-Protein Binding Structure Prediction》

内容简介：

Galixir 技术公司的一个小组通过叫做 TANKBind 的对接程序扩展了研究 1 方法，该程序评估蛋白质上多个位点的对接姿势，并选择得分最高的姿势。

论文链接：

https://www.biorxiv.org/content/10.1101/2022.06.06.495043v3

论文 4

E3Bind: An End-to-End Equivariant Network for Protein-Ligand Docking

内容简介：

Mila-Quebec 人工智能研究所发明了 E3Bind 对接方法。该方法受 AlphaFold2 启发，结合了三种嵌入方式，分别描述了蛋白质图、配体图和蛋白质-配体图，后者通过迭代改进生成对接姿势。

论文链接：https://arxiv.org/abs/2210.06069

论文 5

《Predicting Protein–Ligand Docking Structure with Graph Neural Network》

内容简介：

MedusaGraph 方法使用 GNN 预测蛋白质-配体对接。该方法涉及两个 GNN：姿势预测 GNN 和姿势选择 GNN，前者建议可能的结合姿势，后者执行二元分类以评估给定姿势的质量。

论文链接：

https://pubs.acs.org/doi/10.1021/acs.jcim.2c00127

30 年来，对接一直被用于基于结构的药物设计中，DNN 的进展促进了新的对接程序的发展。这些程序使用来自蛋白质数据库 (PDB) 的数据来训练函数，函数可以识别结合位点提出和评估结合姿势。

这些方法虽然强大，但可能很难成为基准。原因是难以确定这些方法是否发现了新的相互作用，这些方法可能只是从类似的结合位点和配体转移信息。

主题3：蛋白质结构预测

推动 AlphaFold2 向新方向发展

2022 年，PSP，译为蛋白质结构预测 (protein structure prediction) 领域进展迅速。PSP 在分子建模中发挥着重要的作用。

论文 1

《Prediction of multiple conformational states by combining sequence clustering with AlphaFold2》

内容简介：

AlphaFold2 生成蛋白质结果的初始步骤是 MSA，即多重序列比对 (multiple sequence alignment)。通过修改 MSA 可以生成多种蛋白质构象。Wayment-Steele 采用一种通过序列相似性对 MSA 进行聚类并使用聚类产生多个蛋白质构象状态的方法。这种方法称为 AF-Cluster。

论文链接：

https://www.biorxiv.org/content/10.1101/2022.10.17.512570v1

论文 2

《AlphaFold2-RAVE: From sequence to Boltzmann ensemble》

内容简介：

虽然一些研究小组证明了由 AlphaFold2 生成的蛋白质构象具有生物学相关性，但需要更多工作来评估这些构象组合的能量特性和相对布局。 Tiwary 小组通过使用 ML-augmented 分子动力学来产生 Boltzmann 加权的蛋白质构象集合，解决这个问题。

论文链接：

https://www.biorxiv.org/content/10.1101/2022.05.25.493365v2

计算化学家提出 PSP 产生的结构是否可以用于分子建模的问题。以下的论文提供了回答这一问题的第一步。

论文 3

《Are Deep Learning Structural Models Sufficiently Accurate for Free-Energy Calculations? Application of FEP+ to AlphaFold2-Predicted Structures》

内容简介：

FEP，译为自由能微扰 ( Free Energy Pertur)，是计算自由能的常用方法，是优化工作的支柱方法。要在预测和实验的结合亲和力之间取得良好的相关性，普遍看法是必须有一个高分辨率的共晶体结构。Beuming 等人通过研究在 FEP 计算中用 AlphaFold2 结构替代 X 射线结构的效用来挑战这一假设。

论文链接：

https://doi.org/10.1021/acs.jcim.2c00796Https://doi.org/10.1021/acs.jcim.2c00796

论文 4

《Evaluation of AlphaFold2 structures as docking targets》

内容简介：

上述论文体现 AlphaFold2 的结构似乎可以在 FEP 计算中发挥一些作用，分子动力学模拟允许一些侧链重排。然而当将 AlphaFold2 结构与蛋白质晶体结构进行对接比较时，Scripps 的一个研究小组发现，AlphaFold2 结构在侧链中不包含必要的分辨率来进行精确的对接计算。

论文链接：

https://onlinelibrary.wiley.com/doi/full/10.1002/pro.4530

论文 5

《Can AlphaFold2 predict the impact of missense mutations on structure?》

内容简介：

在如肿瘤学和遗传性疾病等的治疗领域中，如果可以了解错义突变的结构影响，能促进治疗方法的设计。

人们对 AlphaFold2 能否可靠地模拟错义突变有不同的看法。来自 NCI 的一个小组将 AlphaFold2 预测的结构与 3 个系统的 X 射线结构进行比较。其中野生型蛋白的 X 射线结构是可用的，并且存在特定的结构破坏性突变。在所有三种情况下，AlphaFold2 预测的突变体和 WT 的结构相似，但未能识别结构破坏性突变。

论文链接：

https://www.nature.com/articles/s41594-021-00714-2

论文 6

《Using AlphaFold to predict the impact of single mutations on protein stability and function》

内容简介：

该论文发现 AlphaFold2 结构没有再现实验观察到的与单一突变有关的蛋白质稳定性或荧光的变化。

论文链接：

https://www.biorxiv.org/content/10.1101/2021.09.19.460937v1

论文 7

《Accurate Mutation Effect Prediction using RoseTTAFold》

内容简介：

不是所有突变的结构影响都不可被预测。该论文证明 RosettaFold 可以预测蛋白质突变的结构影响。

论文链接：

https://www.biorxiv.org/content/10.1101/2022.11.04.515218v1?

2022 年见证了 AlphaFold2 如何扩展并并应用于药物发现中的各种问题，期待人工智能在 PSP 领域更进一步发展。

主题 4：模型可解释性

虽然机器学习模型可以有效地选择和优先考虑用于合成的分子，但大多数模型作为 "黑箱 "操作，将化学结构作为输入，产生预测作为输出。

理想情况下是可解释的模型能提供深入的解释以推动后续化合物的设计。

可解释的模型有以下几个优势：

* 培养实验者信心。如果实验者了解预测结果背后的原因，会更加相信模型的预测结果。

*促进模型的调试。如果能更理解预测结果背后的推理，就可以做出调整来改进模型。

* 促进对基础科学的理解。一个可解释的模型有助于阐明潜在的物理过程，了解化学结构和物理或生物之间的联系。

论文 1

《Interpretation of Structure−Activity Relationships in Real-World Drug Design Data Sets Using Explainable Artificial Intelligence》

内容简介：

这篇论文对 XAI ，译为可解释人工智能 (explainable artificial intelligence) 做综述。该论文展示了几种 XAI 方法，以及强调对活动至关重要的特征的热图视觉化。

论文链接：

https://pubs.acs.org/doi/abs/10.1021/acs.jcim.1c01263

论文 2

《Model agnostic generation of counterfactual explanations for molecules》

内容简介：

该论文使用了反事实解释，这种技术已被用于解释几个领域的机器学习模型，包括信用风险评估。

论文链接：

https://pubs.rsc.org/en/content/articlelanding/2022/sc/d1sc05259d

论文 3

《Explaining molecular properties with natural language》

内容简介：

White 小组使用语言模型为机器学习模型的预测创建基于文本的解释。不过文中的例子还没有说服药物化学家。

论文链接：

https://chemrxiv.org/engage/chemrxiv/article-details/633731d1f764e6e535093041

论文 4

《A Perspective On Explanations Of Molecular Prediction Models》

内容简介：

White 小组的另一篇论文，全面概述了 QSAR 和其他领域的可解释模型。

论文链接：

https://chemrxiv.org/engage/chemrxiv/article-details/639222a114d92d7cd6a65e90

论文 5-6

《EdgeSHAPer: Bond-centric Shapley value-based explanation method for graph neural networks》

《Calculation of exact Shapley values for support vector machines with Tanimoto kernel enables model interpretation》

内容简介：

Shapley 值被用于评估机器学习模型中特征的贡献。 Bajorath 小组的两篇论文展示了这一技术如何应用于分子的机器学习。

论文链接：

https://www.sciencedirect.com/science/article/pii/S2589004222013153

https://www.sciencedirect.com/science/article/pii/S2589004222012950

论文 7

《ChemInformatics Model Explorer (CIME): exploratory analysis of chemical model explanations》

内容简介：

将化学结构与机器学习模型预测联系起来需要一些软件工具，辅助将模型预测和化学结果的映射可视化。拜耳公司的这篇论文提出一个用于解释机器学习模型和可视化原子贡献的开源工具。

论文链接：

https://jcheminf.biomedcentral.com/articles/10.1186/s13321-022-00600-z

虽然模型的可解释性已经成为一些研究工作的组成部分，但还没有完善的 actionable models。从可解释的模型中得到洞察力，并为优化提供明确的方向。这也是该领域希望达到的进展。

主题 5：质量管理方法

《Auto3D: Automatic Generation of the Low-Energy 3D Structures with ANI Neural Network Potentials》

内容简介：

近年出现了用机器学习方法快速重现量子化学势，但该方法实际应用有局限。卡内基梅隆大学 Isayev 小组的研发的软件包 Auto3D 可以改变这种情况，使量子化学势非常容易使用。 Auto3D 接受 SMILES 作为输入，生成和评估三维构象的集合，并提供同位素和立体异构体的能量排名。

论文链接：

https://doi.org/10.1021/acs.jcim.2c00817Https://doi.org/10.1021/acs.jcim.2c00817.

主题 6：超大型化学库

虚拟筛选中突破性改变是按需合成库的出现，如 Enamine REAL, WuXi GalaXi, Otava CHEMryia 和 eMolecules eXplore。这些库由数十亿个分子组成，可以以合理的成本快速交付，让人重新思考现在的虚拟筛选方法。

这种方法适用于包含数百万分子的数据集的方法，在考虑包含数百亿分子的库时就不再适用。

论文 1

《Exploration of Ultralarge Compound Collections for Drug Discovery》

内容简介：

这份说明是美国国家卫生院超大型化学库研讨会的发言人合作文件，为了解该领域提供了很好的概述。

论文链接：

https://pubs.acs.org/doi/10.1021/acs.jcim.2c00224

论文 2

《Comparison of Combinatorial Fragment Spaces and Its Application to Ultralarge Make-on-Demand Compound Catalogs》

内容简介：

当化学库的规模达到数百亿时，像确定两个库中哪些分子是共同的这样简单的任务就变得繁琐而耗时。与其对数十亿个分子进行配对比较，不如比较用于构建库的化学构件。然而由于多种化学途径可以导致同一组产品，因此采用一种使用适当片段策略的方法是至关重要的。

来自 Matthis Rarey 小组的一篇论文使用这样的碎片化策略开发了一个名为 SpaceCompare 的软件工具，可以用它来比较 REAL、GalaXi 和 CHEMyria 数据库。让人惊讶的结论是三个数据库中的分子之间的重叠度非常低。任何两个数据库之间最大的重叠量都不到总量的 2%。

论文链接：

https://pubs.acs.org/doi/10.1021/acs.jcim.1c01378

论文 3

《Calculating and Optimizing Physicochemical Property Distributions of Large Combinatorial Fragment Spaces》

内容简介：

在处理数十亿分子时，看似简单的物理性质计算可能不切实际。 Rarey 小组发表的另一篇文章提出 SpaceProp 的方法，该方法从组成的拓扑片段的属性中得出大型列举集的属性分布。
论文链接：

https://pubs.acs.org/doi/10.1021/acs.jcim.2c00334

过去 5 年间，商业上可用的分子数量从 10 亿增长到 600 多亿。该领域需要开发新的方法，以便对这些超大型库进行基于结构或配体的搜索。

主题 7：主动学习

主动学习是一种迭代技术，使研究人员能够有效地在大空间中搜索。这种方法使用机器学习模型来选择和标记数据点并探索一个特定的化学空间。

论文 1

《Efficient Exploration of Chemical Space with Docking and Deep Learning》

内容简介：

在该论文作者的工作中，主动学习被用来指导与大型化学库的对接计算。主动学习过程从一个初始样本开始，这个初始样本可以随机选择，也可以通过其他一些方法，如聚类。然后对接最初采样的分子子集，并使用分子的化学结构和对接分数来训练机器学习模型。机器学习模型用于为更广泛的数据库生成预测，模型预测被用来选择下一组要对接的分子。经过几次迭代后，主动学习过程确定要进行到下一步的分子

论文链接：

https://pubs.acs.org/doi/10.1021/acs.jctc.1c00810

论文 2

《Self-Focusing Virtual Screening with Active Design Space Pruning》

内容简介：

虽然机器学习比分子对接等方法快了几个数量级，但在一个有数十亿行的表格上进行推理并不容易。麻省理工学院 Coley 小组的这篇论文提供了一种修剪大型数据集并有效减少机器学习算法所预测的分子数量的方法。

论文链接：

https://pubs.acs.org/doi/pdf/10.1021/acs.jcim.2c00554

论文 3-5

《Chemical Space Exploration with Active Learning and Alchemical Free Energies》

《Active Learning Guided Drug Design Lead Optimization Based on Relative Binding Free Energy Modeling》

《Optimizing active learning for free energy calculations》

内容简介：

自由能微扰 (FEP) 计算已经成为计算驱动的基于结构的药物发现项目的支柱。虽然这些计算很强大，但它们的计算成本也很高，一次计算需要几个小时才能完成。克服这些计算上的限制的一种方法是使用主动学习结合 FEP 来搜索大型化学库。这些论文是几个研究小组探索的主动学习在自由能计算中的应用。

论文链接：

https://pubs.acs.org/doi/10.1021/acs.jctc.2c00752

https://doi.org/10.26434/chemrxiv-2022-krs1t

https://www.sciencedirect.com/science/article/pii/S2667318522000204

论文 6

《Coverage Score: A Model Agnostic Method to Efficiently Explore Chemical Space》

内容简介：

主动学习的另一面是用于选择分子的抽样策略。一些小组报告了指导选择的替代方法。来自 Exscientia 的团队发布了 Coverage Score 的方法，该方法使用贝叶斯优化和信息熵来平衡主动学习过程中的探索和开发。

论文链接：

https://pubs.acs.org/doi/abs/10.1021/acs.jcim.2c00258

论文 7

《Batched Bayesian Optimization for Drug Design in Noisy Environments》

内容简介：

药物研发的早期阶段的一个挑战是根据有些嘈杂的主要检测数据决定哪些化合物需要进展。剑桥大学的研究小组发表了一种贝叶斯主动学习方法，该方法考虑了检测数据中的固有噪声。

论文链接：

https://pubs.acs.org/doi/pdf/10.1021/acs.jcim.2c00602

Enamine REAL、WuXi GalaXi 和 Otava 的CHEMriya 等按需合成库的出现，扩大了虚拟筛选的范围。不过即使有了廉价的云计算资源，拥有数十亿分子的虚拟筛选也是相当昂贵的。

主动学习提供了一种对接超大型数据库的有效方法。此外，主动学习可以对成千上万的分子库进行FEP计算。随着这类技术工作发展，它们将被整合到实验工作流中。

主题 8：分子表示

机器学习包括三个要素: 数据、表示和算法。虽然最近大量工作集中在算法上，但分子表示已经得到了有限的关注。

药物研发中早期应用机器学习时，分子由指纹表示，其中向量中的位置表示特定分子特征的存在、缺失或计数。CNN 和 GNN 的出现导致了学习分子表示的出现。虽然这些学习表示有可能胜过指纹模型的结果，但它们的优越性还有待证明。如第一节所提到的，最近的研究结果表明，使用指纹表示的更传统的机器学习方法提供了与更复杂的技术相当的性能，有时甚至更优。

论文 1

《Taking a Respite from Representation Learning for Molecular Property Prediction》

内容简介：

该论文对分子表示、指纹和基于 SMILES 和分子图谱的自我监督表示这三种盛行的方法进行了概述。作者回顾了分子表示和在比较表示和算法时必须考虑的几个混杂因素。

论文链接：

http://arxiv.org/abs/2209.13492Http://arxiv.org/abs/2209.13492

论文 2-5

《ChemBERTa-2: Towards Chemical Foundation Models》

《BARTSmiles: Generative Masked Language Models for Molecular Representations》

《Large-Scale Chemical Language Representations Capture Molecular Structure and Properties》

《Infusing Linguistic Knowledge of SMILES into Chemical Language Models》

内容简介：

2022年机器学习的关键进展之一是大型语言模型 (LLM) 的出现。ChatGPT 这样的大型语言模型进入了公众意识。这里的几篇论文显示了 LLM 如何用于处理 SMILES 字符串库，随后产生可用于 QASR 和生成模型的化学语言模型。

迄今为止，LLM 在 QSAR 任务中的表现并不突出。虽然 LLM 表示已经应用于分子性质预测，但它们在基准测试中的表现并不突出。LLM 在一些有缺陷的基准上表现出与更广泛使用的技术相当的性能。LLM 是一个非常新的领域，它在分子特性预测中还处于起步阶段。人们希望 LLM 的未来发展带来新的分子表示方法。

论文链接：https://arxiv.org/abs/2209.01712

https://arxiv.org/abs/2211.16349

https://arxiv.org/pdf/2106.09553.pdf

https://arxiv.org/abs/2205.00084

过去的十年中，几种神经网络的方法出现在分子表示上。虽然这些方法有望提供一个额外的抽象层次，但还没有一个明确的证据表明它们比早期使用分子描述符和指纹的方法更有优势。

随着该领域不断发展，希望通过纳入三维信息方法更充分地捕捉到潜在的分子相互作用。第 1 节中讨论的新基准应该提供一个更严格的方法来比较现有的基准集。

[1]https://practicalcheminformatics.blogspot.com/2023/01/ai-in-drug-discovery-2022-highly.html