SOTA性能，多尺度学习，中山大学提出蛋白质-药物相互作用AI框架|中山大学|原子结构|生物学|蛋白质

编辑|紫罗

蛋白质、药物和其他生物分子之间的相互作用，在各种生物过程中发挥着至关重要的作用。了解这些相互作用对于破译生物学过程背后的分子机制和开发新的治疗策略至关重要。

当前的多尺度计算方法，常常过于依赖于单一尺度，而对其他尺度的拟合不足，这可能与多尺度学习的不平多尺度衡性和固有的贪婪性有关。

为了缓解优化不平衡，中山大学和上海交通大学的研究人员提出了一种基于变量期望最大化的多尺度表示学习框架 MUSE，它可以有效地整合多尺度信息进行学习。该策略通过相互监督和迭代优化，有效融合原子结构和分子网络尺度之间的多尺度信息。

MUSE 不仅在分子相互作用（蛋白质-蛋白质、药物-蛋白质和药物-药物）任务方面优于当前最先进的模型，而且在原子结构尺度的蛋白质界面预测方面也优于当前最先进的模型。更重要的是，多尺度学习框架可扩展到其他尺度的计算药物发现。

该研究以「A variational expectation-maximization framework for balanced multi-scale learning of protein and drug interactions」为题，于 5 月 25 日发布在《Nature Communications》上。

论文链接：https://www.nature.com/articles/s41467-024-48801-4

生物分子间相互作用

蛋白质功能的特点是与蛋白质、药物和其他生物分子的相互作用。了解这些相互作用对于破译生物过程的分子机制和开发新的治疗策略至关重要。然而，与实验相互作用相关的需求和成本的大幅增长，需要计算工具来自动预测和理解生物分子之间的相互作用。

纯粹从结构预测这些相互作用是结构生物学中最重要的挑战之一。目前的计算方法大多基于分子网络或结构信息来预测相互作用，而没有将它们集成到统一的多尺度框架中。

虽然一些多视图学习方法致力于融合多尺度信息，学习多尺度表示的直观方法是将分子图与交互网络结合起来并共同优化它们。然而，由于多尺度学习的不平衡性和固有的贪婪性，这些模型通常集中依赖于单一尺度。无法有效地利用所有尺度相关的信息，并且泛化差。

此外，有效的多尺度框架不仅需要捕获不同尺度内的丰富信息，而且还需要很好地保留它们之间的潜在关系。

MUSE 用于学习蛋白质和药物多尺度信息

在此，中山大学研究团队提出了 MUSE，一种基于变量期望最大化（Expectation Maximization）的多尺度表示学习框架，它可以在多次迭代的交替过程中优化不同尺度。与严重依赖单尺度信息的现有方法相比，MUSE 通过相互监督和迭代优化，有效解决了多尺度学习中的优化不平衡问题。

MUSE 是一种多尺度学习方法，通过变分期望最大化（EM）框架，将分子结构建模和蛋白质与药物相互作用网络学习相结合。EM 框架在多次迭代的交替过程中优化两个模块，即期望步骤（E-step）和最大化步骤（M-step）。

在 E-step 期间，MUSE 利用每个生物分子的结构信息来学习有效的结构表示，以便在 M-step 中使用已知的相互作用和增强样本进行训练。它将蛋白质和药物对及其原子级结构信息作为输入，并通过 M-step 预测的相互作用进行增强。M-step 将分子级相互作用网络、结构嵌入和 E-step 的预测相互作用作为输入，并输出预测的相互作用。E-step 和 M-step 之间的迭代优化确保了分子结构和网络信息的交互捕获，并在两个尺度上具有不同的学习率。

相互监督确保每个尺度模型以适当的方式学习，从而能够利用不同尺度的有效信息。该框架将在蛋白质和药物之间相互作用的多个多尺度中得到证明。分析了 MUSE 减轻了多尺度学习中的不平衡特征，并有效地整合了来自不同尺度的分层和互补信息。