计算新工具如何赋能药物研发实践？这四位资深专家这么说|动力学|构象|翻译|蛋白|配体

CADD领袖系列论坛第三期——《药物设计前沿：计算新工具赋能药物研发实践》在8月31日成功举办。
CADD领袖论坛为深势科技连同会会药咖共同打造的品牌系列活动，旨在通过线上论坛的方式传播先进的药物计算理念和方法，推动AI等先进计算手段更好地应用及融合到实际的管线研发中。
本次论坛高度聚焦CADD行业热点，深入探讨CADD新思路、新技术。邀请了深势科技生命科学产品负责人徐涛博士作为本场论坛的主持人；并邀请了中国海洋大学医药学院副研究员徐锡明；苏州大学苏州医学院副研究员梁中洁；深势科技算法研究员郑行为观众分享报告并进行圆桌讨论，以期共同推进技术发展进步。

01 报告分享环节

主题1：watvina：从蛋白-小分子相互作用到水分子的未来

徐锡明博士就watvina工具如何考虑到水分子在蛋白和小分子相互作用之中的重要性，以及它在药物设计当中的应用前景展开了分享。

蛋白和小分子的分子对接目前已经被广泛应用于基于结构的药物筛选和设计，徐锡明博士系统地介绍了分子对接工具的历史演变，由此指出了几点疑问：为什么有些分子对接工具能够实现比较精准的对接，有的则对接得较差？为什么有的体系预测结果较好，有的则结果不好？类似Vinardo、Autodock Vina之类的分子对接软件，打分是如何实现的？

针对这些问题，徐锡明博士详细介绍了基于vina引擎二次开发的分子对接软件watvina，其打分函数是如何实现对蛋白和小分子相互作用的评估的。watvina采用了供体氢和受体之间相互作用模式，对氢价的定义采用了Morse势能，同时加入了经验性的部分，并对不同原子形成氢键的权重等细节进行了调整。在此基础上，徐博介绍了Watvina和Autodock Vina工具在打分及搜索算法上的差异。

水分子对于构象的搜索非常关键，水分子的加入有助于实现对分子对接所获得的构象的优化。不仅如此，水分类网络对于亲和力的影响也比较巨大。水分子所具备的热力学特征与蛋白的可药性相关，可以指导药效团模型的建立，如疏水原子、氢键给体或受体，因此可以指导药物分子的设计。基于此，Watvina纳入了水分子模型，可以计算小分子原子在净化水时所贡献的能量，并根据水分子不同的热力学性质进行评估。

在案例中，Watvina的预测结果与GIST结果重合度较高，证明了其在预测水分子上较高的准确性。此外，Watvina可以用来对接多个水分子，像堆积木似的编织一个水网络，在循环一定的次数后，把整个口袋填满。但与此同时，徐锡明博士也指出了水网络存在的问题：

1. 单个水分子的热力学特征与整个水分子网络之间的关系？
2. 水分子网络的质量如何评估？
3. 破坏水网络的代价如何？

这些也是未来科学家们需要共同努力的方向。

在Watvina的应用场景方面，徐博士指出：

1. 未来Watvina将进一步与深度学习程序融合，如在生成模型中，利用分子对接加强学习，使得生成的分子具有更好的活性；
2. 在药物设计的应用方面，需要药物科学家深入理解靶点结构；
3. 进一步展开数据集测试；
4. 在多肽对接和寡糖对接方面发挥更大作用。

主题2：针对蛋白质翻译后修饰位点的功能解读和药物设计研究

细胞内含有遗传信息的DNA经过转录和翻译获得蛋白质，而蛋白质作为一种生物大分子机器，其发挥生物学功能必须经过正确的折叠组装和恰当的翻译后修饰。生物体借助这种翻译后修饰，以极小的进化代价极大地丰富了遗传信息的多样性。

随着质普技术的进步，目前发现的PTM修饰类型可以达到670多种。这些翻译后修饰能够参与蛋白的定位、降解、互作等多种生物功能，其异常与癌症和神经退行性疾病等疾病的发生密切相关，可以说是生物医学研究领域的前沿科学之一。但目前有功能报道的PTM位点仅占发现PTM位点总数的不足5%，所以PTM位点的功能研究也成为修饰组学研究中的一个瓶颈问题。

既然翻译后修饰位点如此重要，怎样有效地把它引用到药物设计当中呢？梁中洁博士指出，在靶向药物设计当中，主要的工作就是在这种化学空间中寻找到合适的探针小分子，对生物学空间进行精确地调控。但受制于有限的靶标空间，严重地制约了这种高选择性化合物的发现。

那么如何将修饰位点的信息引入到药物设计中来拓展已有的靶标空间呢？梁博士分享了团队在近期一项综述研究提出的四种可行的策略，并指出这些策略之间并非完全独立，而是可以相互借鉴应用的。

第一种是靶向修饰位点的共价化合物的模拟，通过模拟翻译后修饰，设计共价化合物来对靶标蛋白进行精确地调控；

第二种策略，由于蛋白质发生翻译后修饰必定会对其构象空间产生一系列的扰动，此时可以通过靶向这种翻译后修饰诱发产生的别构位点，为高选择性化合物的设计提供线索；

第三种方式主要是通过研究翻译后修饰对PPI造成的扰动，通过设计化合物，模拟这种翻译后修饰对PPI 进行稳定或破坏；

第四种是现在比较热门的PROTAC技术，通过设计PROTAC小分子将靶标蛋白和E3酶进行联系，借助体内的泛素降解系统对难靶靶标达到降解作用。

目前PTM位点预测的机器学习模型主要存在两大问题，第一个问题是目前的更新只是算法上的更新，其结构特征上不够丰富，主要还是沿用序列上的一些编码方式和演化特征，且缺少动力学特征。第二个问题在于，目前PTM功能预测模型相对匮乏，使得PTM位点的功能成为蛋白质组学研究中的的“暗物质”。

随后，梁中洁博士介绍了粗粒化网络模型的方法构建和应用研究。粗粒化网络模型可以用于数据集水平的别构效应和致病突变的研究，为高通量地研究PTM的动力学性质提供了有力的工具，并分别介绍了三种粗粒化网络模型：弹性网络模型（ENM）、蛋白质结构网络（PSN）、蛋白质别构信息计算。

梁中洁博士通过两个案例，展示了粗粒化网络模型结合机器学习或深度学习算法，在PTM的功能预测方面的具体应用。

第一个是融合生物物理模型动力学性质的PTM功能预测模型构建，并从数据收集、结构收集、特征计算、模型构建等方面进行了展开；

第二个是靶向蛋白质激酶PTM热点的药物设计研究，将PTM位点映射到激酶结构的口袋空间中，通过探讨PTM口袋跟正构口袋的分子特征来探讨PTM口袋的可靶性。

最后，梁中洁博士表示，未来在AlphaFold2等数据库提供更多结构信息数据的情况下，可以对PTM位点建立更具体的功能模型，对PTM位点功能的解读能够为靶向药物设计扩大已有的靶向空间提供更有价值的信息。

主题3：分子3D预训练模型Uni-Mol在药物研发中的应用

今年5月底，深势科技发布了药物设计领域第一个通用的大规模3D分子表征学习框架Uni-Mol，由两亿个分子三维构象数据和300万个蛋白候选口袋的数据训练得到预训练模型，在几乎所有的药物研发领域的公开数据集上几乎都达到了最优的性能。那么，Uni-Mol为什么会有如此出色的表现，而我们又如何在药物研发的实际问题中应用Uni-Mol？郑行研究员就以上问题展开了分享。

随着人们对于配体蛋白相互作用的理解的不断加深，目前已经开发出了非常多新方法来研究蛋白配体结构和药物效应之间的关系，也就是所谓的构效关系。随着科学家分析构效关系的研究方法在药物研发的实践中不断应用，定量构效关系（QSAR）模型，也就是基于结构去定量预测药物效应的方法应运而生。

定量构效关系模型，简单来说是指通过构建数学模型来研究药物分子的化学结构和其活性之间关系的一种研究方法，一个有效的QSAR模型的建立往往需要经过复杂的分析设计、方法选择、模型训练等过程。

从这个领域的发展来看，得到一个恰当的分子表征是建立QSAR模型的基础，分析表征也不断地向着添加更多信息、添加更多结构自由度方向发展，来帮助模型学到更多内容。另一方面，从一开始的分子性质，再到诸如药效团的人工设计的特征，再到三维结构，对于分子描述符的提取也逐渐从专家系统向机器学习转变，即通过machine learning提取结构中的高维信息。

基于此，郑行研究员介绍了Uni-Mol3D分子表示学习框架的思路，并介绍了模型如何从分子表征、模型设计等方面进行优化，从而提升模型的表征能力。Uni-Mol采取了化繁为简的思路，通过原子类型和原子坐标直接构建一个极为通用的分子表示框架，能够统一处理分子、蛋白、复合物等微观结构。同时基于Transformer构建了深度学习模型，且添加了物理约束来增强其表示能力，使得模型能够从分子结构中直接获得丰富的结构信息。

随后郑行研究员指出了QSAR模型应用中所遇到的数据数量和质量的困境。为了解决这两种问题，Uni-Mol引入了预训练的方法，先用大量没有标签的数据训练模型，使模型获得一些通用能力，再让这个模型在一些有限的有标签数据上展开监督学习，从而得到一个具有预测能力的模型。在自监督任务设置上，郑行研究员分享了模型预训练中运用的两种任务类型：原子类型还原和原子坐标还原。

通过这样的模型设计和训练策略得到的Uni-Mol表现非常亮眼，使用同一套预训练模型就能够在几乎所有的药物研发领域中常用公开数据集上达到最好的效果。在药物研发的实际应用上，Uni-Mol在分子预测性质任务、分子构象生成任务、口袋判别和性质预测任务中均有着非常出色的表现，且为与分子3D直接相关的任务上带来显著提升。如在蛋白-配体复合物预测排序任务（Docking Power）中，Uni-Mol挑选出来的Top1结合构象在90%多的体系上成功，超过之前所有的流行的分子对接方法和深度学习方法。此外，Uni-Mol还能在数分钟内完成千万级数据库的3D结构比对和排序。

此外，郑行研究员分享了Uni-Mol模型在构建专用数据库、加速其他计算方面的应用。除了速度之外，Uni-Mol与其他方法进行连用，从而实现更高的性能，提升计算精度。如在蛋白-配体的结合构象，即binding pose的预测方面，将Uni-Mol与Uni-Docking进行连用，在结合构象预测上能达到80%的能力，精度显著优于传统分子对接软件。

最后，郑行研究员就数据稀缺的情况下，AI for Science新范式是如何通过剖析物理原理、解决药物研发实际问题进行了介绍。并指出，目前药物研发领域的实际问题数据量不大的情况下，要充分利用预训练这种在深度学习领域已经被广泛验证和证明有效的机制，结合AI for Sciense这种科学原理和AI结合的方法，帮助AI模型实现更好的性能，从而帮助药物研发达到更好的效果。

02 嘉宾讨论与观众提问环节

在嘉宾讨论环节中，三位嘉宾就AI与CADD融合的方向，从自己的研究角度展开了一系列的讨论。

未来新工具的研发方向更偏DataDriven，还是基于生物物理化学模型？徐锡明博士认为，未来以数据驱动的药物发现或工具会越来越流行，比如以AlphaFold2为代表的蛋白质折叠工具之所以能够取得巨大成功，PDB结构数据库在其中起到了很大的推动作用。但在一些无法获得源数据、无法展开预训练的场景下，还需要科学家们继续展开探索。

在数据和深度学习到底应该如何结合的问题上，郑行研究员认为，卡点主要在于精细计算本身的通量和速度，是否能够达到为深度学习模型产生大量数据的要求。在这种情况下，AI for Science范式提供一种可能性，即可以用深度学习高维函数表示方式，把难以求解的物理问题转化为一个训练问题。而现在所要做的就是如何把常用的物理约束结合到AI模型里，让它的训练速度更快，用更少的数据、更少的计算量就能达到相应的效果。故当物理上的精确求解和AI工具的辅助求解达到一个平衡时，有望实现计算通量和精度的平衡。

梁中洁博士从PTM位点研究的角度进行了分享。由于PTM功能位点目前报道的数据比较少，在后期模型改造时，如果抛开生物物理模型，不依赖于结构数据来构建深度学习模型，预测效果可能较差。从目前的阶段来说，生物物理模型需要跟AI结合，在一些模型功能预测上才可能实现一个较好的效果。

之后，梁中洁博士就PTM中磷酸化位点的数据问题进行了解答，并就和Uni-Mol等预训练模型可能产生的碰撞展开了讨论。徐锡明博士就未来AI思想和方法的融入后，以watvina为代表的分子对接的未来发展趋势及方向进行了解答。郑行研究员就Uni-Mol在PROTAC场景的应用展开了分享。

论坛最后，各位嘉宾就AI for Science理念在药物设计领域的融合进行了展望，未来药物研发会逐渐走向计算驱动、更加智能化。8月中上旬，由北京科学智能研究院主办、深势科技承办的首届科学智能峰会上，多位嘉宾也就AI for science理念在生命、材料、能源等各个领域取得的成绩做了相应的介绍和未来的展望。未来，深势科技Hermite平台也希望能够为更多药物研发的实际案例赋能。

以上为各位嘉宾观点的浓缩与总结，感谢大家浏览阅读。会会药咖与深势科技之后会持续推出CADD领袖系列论坛，对CADD进行更深入更多维度的探讨，关注我们，第一时间获取CADD领袖论坛第四期预告，大家敬请期待！

视频回放

https://www.bilibili.com/video/BV1Vd4y1X7GL/?vd_source=e90aef846a46bfbb8c72ac22a4a72adc

https://www.bilibili.com/video/BV1Q14y1s7GJ/?vd_source=e90aef846a46bfbb8c72ac22a4a72adc

https://www.bilibili.com/video/BV1Wd4y137q1/?vd_source=e90aef846a46bfbb8c72ac22a4a72adc

关于Hermite™

Hermite™是深势科技打造的基于人工智能、物理建模和高性能计算的新一代药物计算设计平台，致力于为药物研发工作者提供一站式解决方案，满足多种场景的药物研发需求。Hermite™以网页应用的形式，提供多种药物设计功能，帮助药物设计人员完成从靶点结构解析、预测与精修，到苗头化合物筛选，再到先导化合物优化和性质预测的一体化工作。Hermite™提供友好的可视化交互界面、功能实时更新，同时支持本地和云上的私有化部署。

关于深势科技

深势科技成立于2018年，是“AI for Science”科学研究范式的先行者，致力于运用人工智能和分子模拟算法，结合先进计算手段求解重要科学问题，为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。