是否有一个模型可以在偌大的分子空间中高效自动地找到同时满足多种性质又新颖多样的 药物分子? 是否有一个药物发现模型可以摆脱传统机器学习训练对大量实验和标注数据的需求?
今天将要介绍的MARS算法便成功实现了用AI辅助药物发现。字节跳动与上海交大、密歇根大学团队最近在ICLR 2021上发表的一篇论文中提出了一个先导化合物发现的机器学习方法,MARS算法[1],该模型可以通过“自学”来生成一些质量非常高且同时满足多种性质的药物分子候选者。在富有挑战性的计算实验检验中,MARS生成的结果显著优于之前的方法,性能提升达77%。下面将简要介绍AI辅助药物发现所必须面临的困难与挑战,以及论文提出的MARS方法和实验结果,来帮助大家快速了解该工作。
论文链接:
https://openreview.net/forum?id=kHSu4ebxFXY
数据集及代码:
https://github.com/yutxie/mars
图1 药物发现流程
一、什么是小分子靶向药物
小分子药物主要是指分子量小于1000的化学合成药物。它最常见的作用机制是通过与细胞表面、细胞核或细胞质中的受体(receptor)结合发挥作用。与受体结合的小分子被称为配体(ligand),而与小分子药物结合的受体又被称为药物靶点(如蛋白质和核酸等)。小分子药物与靶点通过共价键或者非共价键结合后形成的药物-受体复合物(drug-receptor complex),可以在靶点构象不变的情况下,阻止内源性配体与靶点结合或者直接诱导靶点结构的变化,从而导致其行为或功能的改变(effect),以达到治疗的目的 [3]。小分子靶向药物的发现往往依赖于医学实验室在分子水平和细胞水平的高通量筛选(high-throughput screening),但是这种方法会受限于已有小分子的结构和数量,使得发现的活性小分子结构并不新颖 [4]。如何从广袤的化学空间中探寻新颖的小分子,扩大现有小分子化合物库,已经逐渐引起广大科研工作者的兴趣。
图2:小分子靶向药物与药物靶点相互作用
二、AI辅助药物发现:困难与挑战
实际上,早在多年前科研人员们就开始使用计算机甚至AI技术来辅助药物的发现。近年,也出现了一些尝试采用深度生成模型或是强化学习技术以生成满足特定性质药物分子的工作。例如 R Gómez-Bombarelli et al. 将分子表示为SMILES字符串,并用变分自编码器和循环神经网络来进行分子的生成 [5];Jiaxuan You et al. 将分子显式地表示为分子图,用强化学习来完成原子与化学键的逐步添加 [6];而 Wengong Jin et al. 则是特别考虑了多目标的分子生成问题,提出将代表各个性质的有效分子碎片进行合并,然后再在碎片组合的基础上生成分子 [7]。
图3:近期提出的药物分子生成方法:( a ) R Gómez-Bombarelli et al. [5],( b ) Jiaxuan You et al. [6],( c ) Wengong Jin et al. [7]
虽然这些工作都在计算实验上取得了很好的结果,并且推动了AI辅助药物发现的快速发展,但在多目标药物发现这一问题上,AI辅助药物发现仍然面临着巨大挑战。这种挑战来源于四个方面:
1.分子空间非常大:理论上化学空间中可以作为药物的小分子粗略估计有10^30个 [8],但目前的已有的分子库大小却远远小于这个数量级,如目前最大的分子库之一ChEMBL只包含有两百多万个分子 [9]。所以制药工程亟需一个高效的算法,以在人类尚未探索的巨大分子空间中快速找出可能的药物分子。
2.生成的药物分子需要同时满足多个目标:药物发现常常会需要药物分子同时满足多种理化性质,如类药性、可合成性、对特定蛋白质的亲和性等 [10]。但之前的绝大多数工作都只考虑了单目标的药物生成情景,它们所采用的深度生成模型和强化学习在多目标的优化问题下也会显得乏力。此外,即便是如图3(c)所示这样针对多目标药物发现所特别设计的方法,也可能会因为多种性质碎片所组合出的分子过大,而破坏了其可合成性。
3.生成的药物分子需要具有新颖性和多样性:研究表明,在药物发现的早期,分子的新颖性和多样性也同样是构建一个可靠的药物分子候选库的关键,因为这将直接影响后续化合物筛选和实验等的表现与效率 [11]。然而,近期大多数的相关工作却缺乏对分子新颖性和多样性的讨论,或是没有将其考虑为药物发现的重要因素之一。
4.生成方法无法依赖大量标注或实验数据:由于人工标注和化学实验将耗费大量的时间和金钱,所以药物发现领域非常缺乏高质量的标注和实验数据,而这将对机器学习中模型的训练构成一个极大的挑战。
三、MARS方法
为了解决上述所提到的三个困难与挑战,该论文提出用马尔可夫分子采样法(MArkov moleculaR Sampling, MARS)来寻找那些满足多种性质的优质分子。 MARS方法的提出将涉及到两个问题:
1.如何判断一个分子是否优质?
2. 如何高效地找到这些优质的分子?
对于优质分子的判断,形式上,可以将药物发现的任意多个目标组合起来形成一个分子的综合评价:
式中 代表需要优化的 个理化性质的评估函数, 代表某种结合运算如相加或相乘等。如果能找到那些综合评价分数高的分子,就可以发现相应的多目标药物。
接下来则是如何寻找的问题。注意,由于 是由多个分子的性质函数组合而成的,随着目标的增多,它在离散的化学空间上很可能会变得越来越复杂,这将使优化算法的应用变得困难。因此,区别于传统的与现今流行的深度生成模型,MARS提出用马尔科夫链蒙特卡洛法(MCMC)来寻找综合评价分数高的分子。
图4:MARS方法
MARS方法包含三个重要组成部分:
1. MCMC分子采样框架;
2. 分子图修改模型;
3. 模型的自适应训练。
大体上,MARS采用了一个机器学习模型来不断地修改分子以优化分子的性质。在修改过程中,MCMC采样框架将会根据修改前后分子的综合评价来接受或是拒绝模型的修改,而模型也会根据MCMC的反馈来不断地更新自己的知识。由此一来,模型便会在若干次“提出修改”与“获得反馈”中逐渐地变得“聪明”并找到优质的分子。后文将分别地介绍MARS方法这三个部分的具体实现。
四、MCMC分子采样框架
马尔科夫链蒙特卡洛方法(Markov chain Monte Carlo, MCMC)[12] 常被用于复杂分布的采样,而MARS把分子的综合评价看作一个未进行归一化的分布,成功地将寻找优质分子的问题转化为了分子的采样问题,从而使得MCMC方法的应用成为可能。在MCMC的采样过程中,MARS利用一个建议分布(proposal distribution) 来进行分子状态的转移。如下图所示,从任意初始分子 (如乙烷)开始,在每一个时间点 ,MARS都根据当前的分子 和建议分布 来生成一个新的分子候选者 。对于这个候选者 ,以一定的概率 接受它。如此这般迭代重复,便能生成一系列的分子 ,而理论上MCMC算法也能保证该序列最终收敛到目标分子分布 。
接受概率的计算公式如下:
其中系数 在不同的MCMC算法中可以有不同的实现。因为多目标药物发现希望同时最优化分子的多个性质,所以MARS利用退火策略 ( 为当前的温度) [13] 来寻找化学空间中的最优解 。除此以外还可以设置 来实现Metropolis-Hastings算法 [14]。
而对于建议分布 , 为了提升采样的表现与效率,MARS提出用一个可训练的建议分布 来捕捉目标性质,同时还设计了一个自适应策略来训练模型。
五、分子图修改模型
MARS将建议分布,即原本分子到分子候选者的转移,显式地建模为基于碎片的分子图修改,并用信息传播网络(message passing neural network, MPNN)[15] 来对其进行参数化。在修改分子图时,MARS考虑碎片的添加与删除两种操作。如下图所示,在添加操作中,对于给定的分子,从碎片库中选取一个分子碎片 并将其拼接到某个特定的原子 上(如绿色所示);而对于删除操作,对于给定的分子,切断某条特定的化学键 并移除与其相连的碎片部分(如红色所示)。
原子 、分子碎片 、化学键 的采样和转移概率计算如下:
六、模型的自适应训练
MPNN的训练需要用到大量的数据,而药物发现领域的标注数据常常又是不充足的。为此,MARS采用一套自适应的模型自训练方法,以便摆脱数据的束缚。
具体来说,如上算法所示,在用MARS进行分子采样时,会首先初始化 个分子和分子图的修改模型 ,并创建一个空的数据集 ,该数据集将会用于模型的训练。对于每次分子修改,如果候选分子 能提升原本分子 的整体评价,那么就将该修改记录加入数据集 。在每个时间点 ,当完成对所有 个分子的一轮修改之后,MARS就用当前的数据集 来对模型 的参数进行更新。如此一来,MARS便利用了MCMC采样过程中自身所产生的数据,让MPNN模型随着分子的进化而不断进化起来。
MARS方法的整体计算流程图如下:
七、实验结果
实验优化了分子对两种蛋白质的抗性(GSK3β、JNK3)、类药性(Drug-Likeness, QED)和可合成性(Synthetic Accessibility, SA)共四个目标,并对所生成分子的成功率(所生成的分子同时满足所有性质要求的比例)、新颖性和多样进行了检测。选择GSK3β、JNK3这两个靶标是因为之前的研究发现这两个蛋白与阿兹海默症关联较大,是比较可能的靶标。下图对比了MARS(红色柱形)和四个基准模型(灰黑色柱形)在三种设置下的表现。柱形的高度表示成功率、新颖性和多样性三者的乘积,它可以直观地说明模型所生成的分子中,有多大比例是既满足所有性质要求,同时又多样且新颖的。
实验结果显示,MARS在所有的多目标设置中都显著地超过了之前的方法,这说明MARS的确能生成质量更高、更类药、更易合成、更新颖多样的药物分子。下图是MARS生成的分子样例:
图10 MARS生成的分子样例,括号内的数字分别表示分子的GSK3β活性、JNK3活性、类药性和可合成性。
这里使用可视化技术来展示不同方法所生成的分子。在下图中,灰色点表示模型生成的分子,而蓝色点表示数据集中的正例(满足所有性质的)分子。在理想情况下,蓝色点应当被灰色点所覆盖,这表示模型能复现人类已经发现的分子,并在此基础上进行创新。与此同时,灰色点还应当均匀地分布在空间中,这表示生成的分子具有较高的多样性。可以看到,不管是基于哪个准则,MARS的生成效果都要显著地好于之前的方法,这说明MARS更适合被用来探索广袤的化学分子空间。
八、总结
总的来说,MARS的工作尝试了使用机器学习方法来帮助加快药物发现。这一过程往往十分漫长而又极具风险,因为制药科研人员需要从极其巨大的分子空间中高效地发现同时满足多种理化性质,而又具备足够新颖性和多样性的药物分子,与此同时,药物发现领域方面高质量标注数据的缺乏也让机器学习模型的训练雪上加霜。
针对这些问题,MARS呈现了一个简洁而又灵活的分子采样框架。不同于现在流行的深度生成模型等,MARS方法的设计是基于MCMC采样的,所以它非常适合被应用于各种药物的研发乃至其他领域的多目标生成问题中。MARS用MPNN网络来参数化建议分布,显式地对分子图进行不断地修改,并且还采用了一套自适应的模型自训练方法来应对数据的缺乏问题。实验结果显示,MARS确实能探索到同时满足多种性质并且更加新颖和多样的分子,证明了它被用于解决多目标药物发现问题的可行性。
参考资料
[1] MARS: Markov Molecular Sampling for Multi-objective Drug Discovery, Xie et al., ICLR 2021
[2] Applications of machine learning in drug discovery and development, Vamathevan et al., Nature Reviews Drug Discovery 2019.
[3] Chapter 3: How drugs act: molecular aspects. Rang and Dale’s Pharmacology. 2012
[4] Computer-based de novo design of druglike molecules, Gisbert Schneider et al., Nature Reviews Drug Discovery 2005.
[5] Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules, Gómez-Bombarelli et al., ACS Central Science 2016.
[6] Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation, You et al., NeurIPS 2018.
[7] Multi-Objective Molecule Generation using Interpretable Substructures, Jin et al., ICML 2020.
[8] Estimation of the size of drug-like chemical space based on gdb-17 data, Polishchuk et al., Journal of Computer-aided Molecular Design, 2013.
[9] The chembl database in 2017, Gaulton et al., 2017.
[10] Multi-objective optimization methods in de novo drug design, Nicolaou et al., Mini-reviews in Medicinal Chemistry, 2012.
[11] Rational methods for the selection of diverse screening compounds, Huggins et al., ACS Chemical Biology, 2011.
[12] An introduction to mcmc for machine learning, Andrieu et al., Machine Learning, 2003.
[13] Simulated Annealing: Theory and Applications, Laarhoven and Aarts, 1987.
[14] Equation of state calculations by fast computing machines, Metropolis et al., Journal of Chemical Physics, 1953.
[15] Neural message passing for quantum chemistry, Gilmer et al., ICML 2017.
Illustration by Rosina Gavrilash from Icons8
-The End-
本周上新!
扫码观看!
关于我“门”
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
热门跟贴