撰文|楚雨荨

抗生素耐药性感染是 当今较为 紧迫的公共卫生危机 之一 ,全球每年约导致五百万人死亡 【1】 。抗生素 的 发现 和筛选 需要大量时间和资源 的投入,通过机器学习,大幅提高了抗生素的发现速率。 然而,药物分子可及的化学空间 (Drug-like chemical space) 规模极其庞大( 理论 估计为 10 ⁶⁰ 种化合物),远超当 前针对抗生素结构发现 所能利用的现有化合物库(约 10¹¹ 种化合物) 【2 , 3】 。生成式人工智能(AI) 实现了对 已知化学空间范畴 的突破 ,近年来已用于抗菌肽设计以及小分子 药物的 优化,若能开发 设计 结构新颖的抗菌 化合物 的生成式AI方法,将大幅提升在 未知 化学空间中搜寻抗生素候选物的能力。

2025年 8 月 14 日,来自 美国 麻省理工和哈佛大学 Broad 研究所 James J. Collins 团队在 Cell 杂志上发表了文章 A generative deep learning approach to de novo antibiotic design , 提出了一种基于深度学习的 生成式AI 方法 ,通过两种途径 生成 抗生素 化合物:1) 基于片段 的 计算机模拟 和 筛选 流程,将 有潜力的片段扩展 为抗菌化合物的方法 ; 2) 不受约束的全新 抗生素 化合物生成 方法,实现了生成式AI指导的全新抗生素设计,为探索化学空间中的未知区域提供了建设性平台。

由于抗生素的抗菌预测评分与其相应片段的预测评分相关,研究者们首先选择了化学片段(chemical fragments)作为设计独特抗菌分子结构的生成模型起点,利用基于图神经网络(g raph neural networks , GNN)的 Chemprop 模型,以 淋病奈瑟菌 ( N. gonorrhoeae )和 金黄色葡萄球菌 ( S. aureus )为 目标病原体 ,对给定片段进行抗菌活性预测的训练和基准测试,该模型可以准确地识别抗菌化合物和片段。进一步,研究者们整合了包括GDB-11、GDB-13以及REAL数据库中超过4500万个具有化学意义结构的化学片段数据库, 通过 t-SNE 可视化 并以 Tanimoto 相似性作为距离度量 进行化学空间的二维映射以检查相对于训练库和手动编译的已知抗菌化合物集合所占据的化学空间,发现整合的该片段库在已知抗生素的化学多样性上进行扩展,整合结果为包含了 45,858,026个独特片段 、 跨化学空间多样化子集的综合性数据库。

研究者们利用 Chemprop 模型,针对 淋病奈瑟菌 对片段库进行与已知抗生素不同的虚拟筛选,过滤具有细胞毒性、干扰性的亚结构(PAINS、Brenk 亚结构)片段,结果发现7个化合物在50 μM的浓度下抑制了 淋病奈瑟菌 的生长。值得注意的是,单个片段F1存在于活性化合物BRD1和BRD2中。为针对F1片段生成新化合物,研究者们进一步利用了两种生成式机器学习算法:基于化学合理突变的遗传算法(CReMs)和基于片段的变分自动编码器(F-VAE)算法,CReM是一种通过多轮不同结构抽样和组合产生新分子并预测抗生素活性、细胞毒性和计算已知抗生素相似性的算法;F-VAE算法基于ChEMBL中的所有化合物进行深度学习和训练,对输入片段生成的潜在空间进行采样并进行抗菌活性预测和过滤。两种生成模型的可行性RAscore具有可比性,可以产生具有前景的Chemprop预测评分、真实并且可合成的化合物。

进一步,对于AI基于F1片段合成的27种化合物( 9种来自CReM,18种来自F-VAE ),研究者们成功合成了两种高纯度的由F-VAE模型生成的化合物(NG1, NG2),其中NG1抑制了淋病奈瑟菌ATCC 49226的生长 (最低抑菌浓度: 0.5 μg/mL ), 并 对高度耐药的淋病奈瑟菌菌株表现出强大的活性 。作用机理方面,NG1 通过作用于膜相关蛋白LptA 为 靶标来破坏细菌膜 , 在 治疗 淋病奈瑟菌阴道感染小鼠模型中的 具有体内 疗效 。

针对革兰氏阳性病原体金黄色葡萄球菌 ,采用基于片段的设计方法, 使用与之前相同的预测评分阈值来筛选最初的 抗菌活性 片段 , 并 将F-CReM和F-VAE 算法 应用于 筛选出的目标片段 F2 发现,F2片段对于 抗金黄色葡萄球菌活性非常重要, 但 基于该片段设计化合物 需权衡抗菌活性和合成可行性。

有意思的是,在评估抗生素设计生成模型的通用性时,研究者们修改模型并消除了对片段输入的需求,并以 氨、甲烷或水作为输入 起点,并允许CReM和VAE模型基于训练期间学到的知识来设计、合成并筛选出6个化合物(DN1-DN6)。在分别检测了抗菌活性并依次评估抗菌谱后,发现DN1表现出良好的耐药性和理化性质,在皮肤感染小鼠模型中具有疗效,表明生成模型可以不受输入约束从头设计抗菌分子,而无需片段作为起始点。

综上, 这项研究 提出了一种基于深度学习用于 以片段为起点或从头生成抗生素 化合物的方法 ,全面筛选了超过4500万个化学片段,并鉴定所预测的对淋病奈瑟菌和金黄色葡萄球菌具有选择性抗菌活性的片段,促进了抗菌化合物的发现,并能够有效地探索未知的 化学空间区域。 未来可以在 机器学习模型可能产生假阳性预测或生成结构上非多样性分子 等方面进行优化。

https://doi.org/10.1016/j.cell.2025.07.033

制版人: 十一

参考文献

1. GBD 2021 Antimicrobial Resistance Collaborators (2024). Global burden of bacterial antimicrobial resistance 1990–2021: a systematic analysis with forecasts to 2050. Lancet 404 , 1199–1226. https://doi.org/10.1016/S0140-6736(24)01867-1.

2. Wong, F., de la Fuente-Nunez, C., and Collins, J.J. (2023). Leveraging artificial intelligence in the fight against infectious diseases. Science 381 , 164–170. https://doi.org/10.1126/science.adh1114.

3 . Enamine. (2023). Enamine REAL Space. https://enamine.net/compoundcollections/real-compounds/real-space-navigator.

学术合作组织

(*排名不分先后)


战略合作伙伴

(*排名不分先后)

转载须知


【原创文章】BioArt原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利,违者必究。

BioArt

Med

Plants

人才招聘

近期直播推荐

点击主页推荐活动

关注更多最新活动!