酶是不可或缺的催化剂,可促进生命所必需的生化过程。它们在代谢、工业和生物技术中发挥着至关重要的作用。

事实上,我们对这些催化剂的了解仍然存在差距。在 UniProt 等数据库中编目的约 1.9 亿个蛋白质序列中,只有不到 0.3% 是由专家整理的,不到 20% 经过实验验证。此外,在生物化学和工程领域,仍有很多尚未鉴定出具体负责催化该反应的酶或蛋白质,也就是所谓的“孤儿反应”。这些知识差距阻碍了合成生物学和生物技术创新的进步。

近日,来自上海交通大学、香港科技大学、海南大学、中山大学、麦吉尔大学、魁北克人工智能研究所和麻省理工学院的研究团队开发了一种用于酶检索和功能预测的新型开源基础模型,称为EnzymeCAGE。相关文章以题为“EnzymeCAGE: A Geometric Foundation Model for Enzyme Retrieval with Evolutionary Insights”发表在预印本。

打开网易新闻 查看精彩图片

该模型基于超过 2000 个物种的 100 万个酶反应对的数据集上进行训练。其拥有如下特点:引入对比语言-图像预训练 (CLIP) 框架,结合酶结构、进化洞察力和化学反应来预测酶功能并检索用于反应的酶,解决了诸如看不见的酶的功能预测和反应去孤儿化等挑战。

EnzymeCAGE 的核心是使用了几何增强的口袋注意模块,该模块利用残基距离和二面角等结构信息来精确定位催化位点,提高其预测的准确性和可解释性;此外,该模块采用了中心感知反应相互作用模块,通过加权注意强调反应中心,捕捉底物-产物转化的动态

EnzymeCAGE 经过了严格的测试,与现有方法相比,其性能更出色。在包含未见过的酶的 Loyal-1968 测试集中,与传统方法相比,EnzymeCAGE 的功能预测提高了 44%,酶检索准确率提高了 73%。它的 Top-1 成功率为 33.7%,Top-10 成功率超过 63%,超过了 BLASTp 和 Selenzyme 等基准。

在反应去孤儿化任务中,EnzymeCAGE 准确识别出适合孤儿反应的酶,在不同的测试集中实现了更高的富集因子和排名指标;此外 EnzymeCAGE 可以通过微调适应特定领域酶家族,例如细胞色素 P450、萜烯合酶和磷酸酶等,提高专门生化应用的预测准确性。

在这项研究中,研究人员通过 EnzymeCAGE实现了重建戊二酸生物合成途径,优于 Selenzyme 等传统工具。表明 EnzymeCAGE 在解决酶功能预测和催化研究的主要挑战方面具有实用性。

EnzymeCAGE 代表着在解决酶研究中长期存在的挑战方面迈出了重要一步,特别是在功能预测和反应注释方面。通过整合几何、结构和功能见解,它可以为未知的酶功能提供准确预测、为孤儿反应提供注释,并为代谢通路工程提供支持。该模型的适应性和微调能力增强了其对特定酶家族和工业应用的实用性。

总而言之,EnzymeCAGE 为生物催化、合成生物学和代谢工程的未来发展奠定了坚实的基础,为加深我们对酶促过程及其创新潜力的理解提供了新途径。

1.https://www.biorxiv.org/content/10.1101/2024.12.15.628585v1

免责声明:本文旨在传递合成生物学最新讯息,不代表平台立场,不构成任何投资意见和建议,以官方/公司公告为准。本文也不是治疗方案推荐,如需获得治疗方案指导,请前往正规医院就诊。