山东大学魏乐义：基于分子组装打开逆合成预测的“黑匣子”|人工智能|化学|山东大学|科学|魏乐义|黑匣子

科学智能（AI for Science）通过学习、模拟、预测和优化自然界与人类社会的各种现象和规律来解决我们目前遇到的各类科研难题，从而推动科学发现和创新，这种模式目前被称为科学研究和发现的第五范式。络绎科学发起「科学智能 50 人」访谈计划，旨在邀请科学智能领域优秀的专家代表，希望通过系列访谈，为广大读者呈现一个更全面、深入的科学智能领域的发展现状和前沿洞察。

人工智能（AI）的快速发展催生了众多科学领域的创造性应用。特别是近几十年间，由于 AI 技术与科学研究之间的深度交叉融合，一种新兴科技形态已经崭露头角——即 AI for Science（科学智能，也称 AI4S）。

AI4S 是指通过利用机器学习或者其他 AI 技术，提出和解决科学研究中的问题。这其中，机器学习（ML）无疑是最令人兴奋的技术之一，其对于已有科学的推动作用将带来巨大的社会和经济价值。

事实上，包括谷歌、Facebook、微软和亚马逊等在内，众多国际知名企业已经将机器学习作为一项核心技术着力发展。并且，已有部分巨头跨界而动，为生物医疗科学领域带来了更多技术和资金方面的支持。

在国内，部分先进学者已经投身于这个极具变革性的科学领域。其中，山东大学魏乐义教授及其团队长期关注于生物大分子序列结构与功能分析问题，以及基于智能计算的药物发现工作，在 AI 驱动药物研发下游的虚拟筛选以及成药性分析方向打下了深厚基础。

魏乐义现任山东大学软件学院教授、博士生导师，并入选 2023 年国家高层次青年人才计划。他曾于厦门大学先后获得计算数学学士学位、以及计算机科学与技术专业的硕士和博士学位，后于日本东京大学医科学研究所开展博士后工作。

截至目前，魏乐义已发表国际高水平论文百余篇，并且在近两年连续入选“科睿唯安”全球高被引学者，以及 Elsevier 中国高被引学者、斯坦福全球前 2% 顶尖科学家榜单，并获得 2021 年 ACM SIGBIO 新星奖等多项荣誉。

基于分子组装，打开逆合成预测的“黑匣子”

长期以来，魏乐义沉浸于 AI for life science 相关领域的研究工作。其研究方向包括开发和利用人工智能算法以快速、精准地解析海量生物大分子序列的结构与功能，表观遗传数据分析，以及 AI 驱动的药物研发等。

近期，魏乐义工作组在 AI 驱动的药物研发领域再次取得突破。其团队在Nature Communications上发表了题为Retrosynthesis prediction with an interpretable deep-learning framework based on molecular assembly tasks的研究论文。

该项研究利用深度学习，将逆合成任务“公式化”地拆解为分子组装过程，从而为相关药物开发工作提供可行、高通量和高质量的有机合成方法。

图丨RetroExplainer 模拟化学机制决策（来源：Nature Communications）

逆合成分析，也被称作逆合成法，是一种用于解决有机合成路径问题的重要方法。其不仅能够降低药物的制造成本，而且能够有效解决药物分子生产途径单一的问题。

逆合成法的实质是针对目标分子进行分拆，通过分析目标分子结构，逐步将其拆解为更简单、更容易合成的前体和原料，从而完成整体合成路径设计。由于该方法背后涉及极为复杂的合成设计策略，如果仅凭人工计算，其工作量十分庞杂且艰巨。长期以来，众多研究者计划借助人工智能实现逆合成设计的自动化，从而加速有机化学研究进程。

本次研究中，魏乐义及其团队提出了一种基于分子组装的深度学习方法 RetroExplainer，通过模拟化学反应的发生机制、实习知识与数据的有机联合驱动，使得模型能够提供透明的决策和可解释的逆向合成预测，提升了模型的可解释性和预测准确性。

图丨基于分子组装的决策过程生成解释（来源：Nature Communications）

“大多数现有的深度学习方法就像一个缺乏洞察力的‘黑匣子’，它可以找到数据之间存在的关联，但却无法为任何计算结果提供可以解释的凭据。”魏乐义对此解释道，“深度学习的这一特性使得模型决策过程不透明，因此难以评估预测结果可靠性。”

另一方面，早期模型缺乏考虑表征学习算法与化学反应数据的适应性，使得分子关键表征学习不充分，这导致模型预测精度不足，也限制了其在药物分子合成路线设计的应用。

面对上述障碍，魏乐义及其团队利用 RetroExplainer 预测了 101 种复杂药物分子的合成路线，以评估其在合成路线规划中的可靠性。结果表明，模型预测出 86.9% 的单步反应与文献报道的反应一致，验证了模型在多步逆合成路线规划中的潜在应用价值。

“AI 与 Science 之间相辅相成”

近年以来，已经有来自化学、生命科学、信息科学、材料科学等诸多领域中的研究者展开系统性的 AI4S 研究，并针对具体应用产生了相对成熟的解决方案。

“AI 与 Science 之间相辅相成。”魏乐义表示，Science 能够在相关领域抛出关键科学问题，而 AI 则能够针对性的对问题进行设计与优化，通过挖掘大数据中的复杂关键模式，突破领域专家的认识局限，进而发掘科学问题背后的发生机制与科学原理。

毫无疑问的是，AI4S 将是未来科学研究的新范式。并且，由于该领域具有高度交叉属性，因此需要不同领域的专家通力合作，共同探索人工智能与科学研究结合的新可能与新方案。

为了打破不同学科间的技术壁垒，近年以来，魏乐义团队还致力于软件以及平台开发工作，从而为相关研究者带来更加便捷的 AI 模型。

近期，其团队提出了首个面向海量生物序列分析的“一站式”深度学习计算平台 DeepBIO（https://inner.wei-group.net/DeepBIO/），该平台能够为生物学家或者没有编程基础的研究者们提供全流程计算服务。相关工作论文已发表于Nucleic Acids Research期刊，并被期刊选为突破性成果（Breakthrough Article），获得了广泛关注。

图丨自动化、可解释的深度学习平台 DeepBIO（来源：Nucleic Acids Research）

具体来说，对于给定的任何生物序列数据，DeepBIO 总共支持 42 种最先进的深度学习算法，用于在全自动管道中进行模型训练、比较、优化和评估等工作。在此之后，DeepBIO 为预测模型提供全面的结果可视化分析，涵盖模型可解释性、特征分析和功能序列区域发现等多个方面。

“我认为 AI 对于 Science 来说，其最佳定位在于为科学提供强有力的工具，”魏乐义指出，“AI 强大的数据挖掘能力将有助于科学发现，从而成为 Science 背后强有力的支持，进而推动相关科学领域的创新与发展。”

接下来，魏乐义团队的主要研究计划将分为两个方面。在具体问题研究方面，其将围绕药物研发上游的问题进一步做相关研究，例如基于人工智能的蛋白质或者多肽药物设计与生成等。另一方面，在模型以及算法层面，该团队将致力于研究可解释人工智能方法，使得科学家在应用人工智能模型进行科学发现时，预测结果能够有迹可循，有理可依，从而发掘问题背后的发生机制。

参考资料：

1.https://faculty.sdu.edu.cn/weileyi/zh_CN/index/996789/list/index.htm

2.https://doi.org/10.1038/s41467-023-41698-5

3.https://doi.org/10.1093/nar/gkad055

声明：本文仅供科研分享，助力科学传播，不做盈利使用，如有侵权，请联系后台删除。