Cell子刊：西湖大学李子青团队等提出AI虚拟细胞代谢研究新范式|代谢物|李子青|生物学|组学|虚拟细胞|西湖大学|转录组|通量

编译丨王聪

编辑丨王多鱼

排版丨水成文

近日，西湖大学李子青团队联合上海人工智能实验室/上海创智学院董楠卿、百图生科杨其荣（郑蒋滨、徐鑫焱为共同第一作者），在 Cell Press 旗下期刊Trends in Biochemical Sciences上发表了题为：Artificial intelligence revolutionizes cellular metabolic pathway reconstruction 的文章。

该文章首次正式提出并定义了“AI 虚拟代谢”（AI Virtual Metabolism，AIVM）这一新概念，确立了以“AI + 多组学”驱动代谢网络重构的 AGI4S（AGI for Science）研究新范式。作为实现“AI 虚拟细胞”（AI Virtual Cell，AIVC）宏伟蓝图中不可或缺且挑战最大的核心环节，AIVM 的提出，填补了当前领域的空白，为虚拟代谢研究指明了全新方向。

细胞代谢途径重建，是合成生物学中一个至关重要但充满挑战的目标。在这篇文章中，作者们提出了一个概念性框架，将逆合成规划与生物学约束相结合，以增强生物学可行性。该方法横跨个体和系统层面建模，能够实现由大型语言模型驱动的代谢网络理解、设计、评估和优化。

人工智能驱动的细胞代谢途径重建

细胞代谢几乎是所有生命过程的基础，驱动着能量生产、大分子（如核苷酸、氨基酸和脂质）的生物合成以及细胞信号传导。其复杂的酶、代谢物和反应网络是合成生物学、药物开发和精准医学等领域的核心。一个被充分表征的例子——葡萄糖代谢，展示了一个代表性代谢途径的基本结构和范围。识别、绘制和组织生化反应的过程被称为“细胞代谢重建”，对于理解这些途径、预测其功能、复杂性以及细胞区室的动态空间组织，并为了研究或生物技术应用而对其进行工程化改造至关重要。然而，传统的生化方法常常因实验数据有限、途径高度分支以及依赖于上下文的调控而难以完全重建这些网络。即使对于相对简单的葡萄糖代谢，要完全阐明其网络也需要对参与的所有代谢酶、反应物、反应条件及其相互关系有全面的了解。

近年来人工智能（AI）的进展提供了一个有前景的范式转变：通过从大规模代谢组学数据中学习，人工智能可以在没有完全机理理解的情况下预测代谢途径，为进一步研究其生物学功能和潜在应用提供起点。然而，现有的 AI 方法仍处于起步阶段。这些方法将途径预测视为使用预定义反应模板（即定义特定化学转化的固定规则）的分类任务，限制了其推广到训练中未遇到的特定途径或反应的能力。此外，这些模型通常是静态的，不适合模拟多步骤、自适应的生物过程。相比之下，AI 在化学逆合成方面取得了显著进展，其技术已实现重建复杂、多步骤的合成路线，用于创造天然及新型小分子。

相信这一成功提出了一个令人兴奋的可能性：类似的 AI 策略能否扩展到活细胞的代谢途径重建？虽然逆合成的逻辑框架适用于这两个领域，但细胞代谢施加了化学合成中不存在的独特约束，例如酶特异性、热力学限制、调节途径以及细胞区室的动态空间组织。此外，活细胞中的代谢在非理想条件下运行，受到进化压力、生理约束和环境扰动的影响。为了有效模拟代谢网络，人工智能系统必须考虑生命特有的约束。

在此，作者们提出了一个新的概念框架——人工智能虚拟代谢（AI virtual metabolism，AIVM），以勾勒出该领域如何向前推进，以实现智能代谢途径重建的宏伟目标，以促进生物学理解和代谢工程。

构建 AIVM：从结构途径设计到动态系统模拟

个体代谢途径设计

作者们提出，将化学中使用的逆合成推理与细胞系统生物学相结合，可以提供具有生物学信息的代谢途径预测。AIVM 框架将利用在多层组学数据（基因组学、转录组学、蛋白质组学、代谢组学）上训练的大语言模型（LLM），生成细胞功能的分层表征。这一过程受分子生物学中心法则指导，这些基于流的表示反映了基因表达如何驱动酶的生产，并最终塑造代谢活性。

为了模拟生物学上真实的途径，该框架将纳入多种生物学约束，如前所述。更具体地说，酶水平约束确保提出的反应在催化上是可行的，而热力学过滤则排除能量上不利的路径。例如，酶特异性可以使用 BRENDA 和 KEGG 等数据库进行验证，而热力学可行性可以通过 eQuilibrator 计算生理条件下的吉布斯自由能变（ΔG）来评估。在前面提到的葡萄糖代谢案例中，ΔG 计算可以区分可行的糖酵解步骤与能量上不利的逆转反应。代谢组学背景通过整合条件特异性的代谢物浓度，进一步优化了预测。这些过滤器共同作用，可以防止生成不现实的途径，并提高通量预测的可信度。

通过基于图的迭代设计，该框架可以构建多步骤的生物合成途径。这些途径反映了化学逆合成的逻辑，但基于酶驱动、上下文感知的细胞代谢。作为一个说明性示例，Box1 展示了在工程酵母中重构青蒿酸途径的概念性 AIVM 驱动示例，阐明了所提出的工作流程如何生成候选途径和可测试的设计假设，这些假设可以在生物约束条件下与已建立的酿酒酵母工程策略进行基准测试，并有可能增加下游青蒿素转化的前体供应。作者设想，未来的应用包括微生物底盘优化、高价值化合物的可持续生产、生物传感和治疗干预。

Box1. 概念性应用场景：人工智能驱动的青蒿酸途径重建

通过一个假设的在酿酒酵母中重建青蒿酸途径的场景来说明 AIVM 框架。实现高产通常需要在三个核心领域进行多年的优化：甲羟戊酸通量、细胞色素P450催化效率和氧化还原平衡。这使其成为 AIVM 引导设计的理想测试平台。首先，逆合成推理将提出从乙酰辅酶A到青蒿酸的生物合成路线，由来自BRENDA和MetaCyc等数据库的酶学约束指导。随后，一个经过多组学训练的大语言模型将通过将来自黄花蒿的基因组和转录组数据映射到酵母，优先考虑酶变体，提出工程干预措施，例如增强HMG1和ERG10以扩大法尼基焦磷酸池，并优先考虑CYP71AV1及其氧化还原伴侣CPR1以提高下游氧化效率。接着，热力学过滤将排除能量上不利的分支，例如MVA脱羧的逆转反应。最有前景的途径随后将被嵌入到一个酵母基因组规模代谢模型中，并使用通量平衡分析来评估生物质与产物的权衡。最后，大语言模型充当“协同科学家”，分析调控相互作用，建议限制竞争性的麦角固醇途径并平衡 NADPH 的使用以最大化产量。这为途径设计提供了更高层次的见解，并提出了超越静态、基于规则方法的替代策略。

从个体途径到系统水平的代谢重建

在代谢工程中，许多研究专注于构建用于合成特定化合物的单一途径。然而，在活细胞内，代谢途径在复杂的网络中高度互连，并非孤立运作。基因组规模代谢模型已成为应对这种复杂性的一种强大建模方法。通过整合所有已知的代谢反应和相关的基因注释，基因组规模代谢模型提供了细胞物质和能量转化的系统性模拟，是揭示代谢运作原理的关键工具。一个经典例子是大肠杆菌的基因组规模代谢模型 iML1515，它已被广泛用于模拟不同营养条件下的生长，并预测代谢工程的基因敲除策略。

激活 AIVM：动态代谢理解与优化

后处理的优化和模拟对于确保准确性和生物学相关性至关重要。当必需反应缺失时，可以应用间隙填补算法来恢复连接性。

通量平衡分析为基础的模拟

根据实验目标（如化合物过量生产、副产物最小化或生长偶联合成），重建的网络必须进一步调整。这需要自适应优化策略，在计算机中迭代调整通量、基因表达水平和调控约束。通量平衡分析是这些模拟的基础，能够在定义的条件下评估稳态通量分布。基于这一基础方法，算法如基于强制通量扫描的通量可以识别基因扩增目标，以将细胞生长与产物合成耦合。AI 驱动的预测与系统水平建模的这种迭代集成，对于构建在不同环境下可靠运行的稳健模块化代谢电路至关重要。

超越通量平衡分析：迈向代谢大语言模型驱动的理解

虽然通量平衡分析通过线性约束提供了可解释性，但对于复杂的知识发现仍然有限。通过利用多组学特征和基因组规模代谢模型的拓扑结构，我们假设，经过训练的代谢大型语言模型可以作为自主代理，发挥“AI 代谢科学家”的作用。这些代理可以捕捉非线性依赖关系，提出新途径，建议靶向基因扰动，推荐酶修饰，并推断最佳条件。因此，将基因组规模代谢模型与大型语言模型驱动的代理相结合，能够实现任务无关的探索，推动代谢设计从静态优化转向动态的、知识驱动的工程。

评估 AI 生成的代谢网络

如前所述，评估 AI 生成的途径需要多层策略，以确保化学合理性和生物学可行性。在反应水平，可行性可以通过原子质量平衡和生理条件下的 ΔG 计算来验证，并通过 KEGG 或 UniProt 等数据库中的酶学支持注释来确认。对于缺乏直接注释的反应，可通过序列同源性搜索（如 BLAST）、保守结构域分析或基于结构的对接（如 AlphaFold Server）来探究其可行性。

在网络水平，相信预测的途径必须无缝集成到基因组规模代谢模型中，保持途径间的连接性并避免死端代谢物。这可以通过拓扑分析和通量一致性检查来评估。一旦整合，通量平衡分析可以测试增强后的模型是否支持生物质生产或所需的生物合成输出，同时基因-蛋白质-反应关联可以与组学数据交叉验证，以确保功能相关性。例如，可以通过确认在转录组数据显示相应基因不表达的模拟条件下，特定反应是计算上不活跃的（通量为零）来评估功能相关性。通过结合这些分层的验证步骤，我们认为人工智能生成的途径既能获得生物学可信度，又具有代谢工程的转化价值。

细胞代谢包含的复杂、动态的生化过程

总结

近期的努力，例如预测天然产物生物合成途径的 BioNavi-NP，已将人工智能与生物学知识相结合。然而，这些方法通常局限于局部途径扩展、基于规则的分类或由预定义模板引导的启发式搜索。相比之下，该文章中提出的人工智能虚拟代谢（AIVM）框架在单一路径和基因组尺度水平上统一了逆合成推理与生物学约束。它整合了多组学数据，检查热力学可行性，并使用基于基因组规模代谢模型的连接性来确保与已知代谢途径的兼容性。最重要的是，将大语言模型（LLM）定位为代谢“协同科学家”（co-scientist），负责非线性推理，以发现未知或特征不清的途径，为反应提出酶变体，并跨生物体调整设计。这一转变超越了基于规则的预测，走向任务无关的、发现驱动的探索。

当然，关键挑战仍然存在。多组学和代谢大语言模型需要大规模、高质量的数据集来增强生物学真实性。扩展到基因组水平网络需要标准化的基准和策划的资源库。此外，将预测扩展到真核生物增加了复杂性，包括区室化、酶定位和动态调控。因此，湿实验室验证对于建立生物学可信度仍然不可或缺。相信包括社区驱动的策展、迁移学习和标准化平台在内的策略能够缓解数据稀缺。应对这些挑战将需要计算建模与实验流程的更紧密结合。

总而言之，该文章提出了一条通往虚拟代谢途径重建的路线图。虽然取代湿实验室的试错法仍然遥远，但 AI 工具已经提供了强大的手段来加速优化。一个可编程、模块化且基于生物学的、AI 赋能的虚拟细胞（AI-enabled Virtual Cell）愿景正在成为现实。

https://www.cell.com/trends/biochemical-sciences/fulltext/S0968-0004(26)00003-4