打开网易新闻 查看精彩图片

作者:论文团队

编辑丨ScienceAI

「组合爆炸」遇到「算力瓶颈」是行业性痛点。在传统的制药与化工领域,新分子的研发往往伴随着极高的不确定性。一个候选分子能否成药,需要跨越溶解度、渗透性、毒性等多重「硬指标」的考验;而一旦确定了目标分子,如何将其低成本、高效率地合成出来,更是困扰化学家数十年的难题。传统的 AI 算法往往将这些任务割裂开来,导致研发效率低下,试错成本高昂。

近日,由清华大学智能产业研究院(AIR)联合 AI 药物研发企业水木分子打造的化学分子通用任务大模型 BioMedGPT-Mol 正式开源。这意味着全生态的化学家、材料科学家、药物和生命科学研发人员,能免费使用这一基座模型,这为生物信息与生命科学领域的创新再添力量。

打开网易新闻 查看精彩图片

论文地址:https://arxiv.org/abs/2512.04629

开源地址:https://github.com/PharMolix/OpenBioMed

BioMedGPT-Mol 是面向生物医药与生命科学领域的分子语言模型、旨在推动分子发现。该模型在分子理解和分子生成两大方向的六大类典型子任务中均达到 SOTA 水平。未来,其在助力药企、CRO 等生态机构开展化学合成药物创新,尤其是小分子药物发现方面,拥有巨大的应用潜力。

在诸多科研任务中,基于 BioMedGPT-Mol 研究团队首次探索了仅采用 LLM 大语言模型进行端到端有机分子逆合成分析,有效突破了合成化学的传统瓶颈,奠定了化学分子通用任务智能体的基础。BioMedGPT-Mol 的出现,正是为了打破这种碎片化的研发范式。它不再是一个只能完成单一任务的「工具软件」,而是一个具备深度逻辑推理能力的「化学大脑」。

BioMedGPT-Mol 依托 1360 万组高质量分子指令数据集,以精心设计的多任务联合学习策略将分子研发复杂链路整合进统一框架,在工业界核心六大任务上表现亮眼,多目标联合优化可针对先导化合物优化场景权衡多个矛盾指标实现分子精雕细琢,精准编辑与生成能力则支持根据文字描述设计新分子或对已有分子做官能团精准增减;同时该模型还攻坚了逆合成分析的传统难题,团队首次探索仅用 LLM 大语言模型实现端到端有机分子逆合成分析,经三阶段 SFT 微调与强化学习的训练,模型在 RetroBench 榜单达到 SOTA 水平,非专业背景用户也能借助这一智能体获得商业可行、生产可执行的合成方案,助力缩短从实验室验证到规模化生产的周期;而 BioMedGPT-Mol 的开源,标志着生物医药和生命科学界研发迈入「大模型驱动」的新阶段,对药企和 CRO 而言,它是助力提升新药「源头创新」能力的工具,借助其多任务 AI 辅助设计能力,助力药企提升高成药性分子筛选成功率,让研发重心回归到核心机制的突破上。

打开网易新闻 查看精彩图片

BioMedGPT-Mol 支持化学分子理解与生成六大任务

在工业界最关心的核心任务上,BioMedGPT-Mol 展现出了惊人的「实战」能力,例如:

  • 性能预测(Property Prediction):预估分子的水溶性、血脑屏障穿透性(BBBP)及人体肠道吸收率(HIA)等关键成药性指标,在临床前阶段提前规避风险,为药企节省试错成本。
  • 精准编辑与生成(Molecule Editing):无论是根据一段文字描述「凭空」设计新分子,还是对已有分子进行官能团的精准增减。
  • 多目标联合优化(Property Optimization):针对先导化合物优化的真实工业场景,模型可以协同优化多个关键指标(如在提升药效的同时降低毒性),助力实现分子的「精雕细琢」。

以分子性能优化任务 — 联合优化为例,该任务要求模型不仅能完成分子编辑,还能判断修改是否导向预期优化目标。其中多任务联合优化更贴合药物研发中先导化合物优化(Lead Optimization)的真实场景,需同时对多个关键成药性指标进行协同提升,包括:QED、血脑屏障穿透性 BBBP、诱导基因突变 Mutagenicity、肠道吸收率 HIA 等等。如下是一个联合优化的例子。

打开网易新闻 查看精彩图片

以分子性能优化任务 — 联合优化的例子

对药企而言,这六大任务价值概括为:可覆盖从分子解析到优化设计的全研发流程,助力更快速筛选高成药性候选分子、规划更优合成路线,助力缩短新药发现周期并降低研发试错成本。

对 CRO 而言,这些任务可助力提供一站式 AI 辅助研发服务,助力高效完成数据标准化、成药性评估与分子改造等工作,助力提升项目交付效率与服务竞争力。

两类企业均可借助该模型释放资深研发人员的创造力,让专业人才聚焦高价值创新工作,同时拓展业务边界、增强在药物研发领域的核心优势。

打开网易新闻 查看精彩图片

BioMedGPT-Mol 在分子理解与生成任务上均取得综合 SOTA

利用自建的大规模高质量分子理解与生成数据集,通过多任务联合学习的方式,BioMedGPT-Mol 在以化学分子为中心的任务综合能力上明显提升。在涉及 19 个典型任务的 58K 大规模测试数据集上,BioMedGPT-Mol 在六大类子任务的综合指标上均达到 SOTA 效果。同时,当模型切换至推理模式时,水木分子团队也观察到显式的推理过程可以使得模型在分子编辑任务上实现进一步的性能提升。在此基础上,水木分子团队首次探索了仅使用大模型进行端到端有机分子逆合成分析,在 RetroBench 榜单上达到了 SOTA 水平。以 BioMedGPT-Mol 为大脑,其驱动的智能体可以支持化学分子研发全流程。

打开网易新闻 查看精彩图片

BioMedGPT-Mol 在分子编辑中的思维过程

打开网易新闻 查看精彩图片

基于 BioMedGPT-Mol 的化学分子研发智能体流程图

逆合成分析:合成化学的「老问题」

在化学中,合成是指将简单物质通过化学反应转化为复杂物质的过程。合成并非人类独有,大自然本身就是高效的「合成大师」。例如植物的光合作用,就是叶绿素利用水和二氧化碳,经一系列反应生成葡萄糖与氧气。而人工化学合成则能创造出自然界原本不存在的物质,阿司匹林是极具代表性的化学合成药物。

有机分子是有机化学和合成化学研究的重要对象,在药物、高分子材料、化妆品和农药等领域具有广泛应用。逆合成分析是有机化学中解决合成问题的一种重要方法,它以目标分子为出发点,通过反向分析获得实现目标分子的合成前体和中间反应等,直至获得简单或商业可用的起始原料。例如,通过逆合成分析,找到实现一个复杂目标分子的前序若干前体和相应的中间反应,并最终找到商业可用的起始原料。

在现代合成技术中,通常会采取一种「逆合成」分析的方法,简单来说,就像是在纸上、把目标产物拆解,看看它可以分解出什么东西,这样就可以找到合成办法了。从这个角度来说,分解与合成是创造新物质的一体两面,是不可分割的,甚至可以比喻分解是「高级」的合成。从这个角度看,逆合成分析可以理解为对合成过程的「反向设计」。

逆合成分析的结果通常是一棵逆合成树(retrosynthetic tree),从目标分子逐步回溯至可获得的起始原料,包括每条分支路径上的合成前体、中间反应及反应条件、反应产率等,从而规划商业可行的合成生产方案。在 20 世纪前半叶,有机化合物的合成设计主要依赖于猜测起始原料并进行试错实验。

20 世纪 60 年代,诺贝尔化学奖得主 E.J.Corey 系统提出逆合成分析(Retrosynthetic analysis)方法,该方法颠覆了传统有机合成的设计逻辑(从目标分子反向推导至起始原料)。E.J.Corey 提出不预设起始原料,而从目标分子出发,通过合成反应的逆过程,将目标分子转化为合成前体,从而确定合成路线(合成树),这种方法被称为逆合成分析。

逆合成分析已成为现代有机合成设计的基础范式,并被广泛应用于药物发现、材料科学和生物技术等领域。逆合成分析与正向合成分析在思路上正好相反。正向合成分析是从起始原料出发,找出合成所需的直接或间接的中间体,逐步推向合成的目标分子。正向合成分析与逆合成分析都是经典的搜索问题,但在处理复杂分子的时候,正向分析由于存在庞大的中间体和中间反应路径分支,容易陷入「组合爆炸」,且可能错过全局最优合成路线,而逆合成分析则结合有机化学知识,可高效规划复杂合成路径,特别适于复杂分子设计。

当然,逆合成分析也极具挑战性。由于单个分子往往存在多种可能的合成前体,逆合成分析作为一个搜索问题往往面临路径的爆炸式增长。因此,优异的搜索策略对于逆合成分析的效率至关重要。同时,逆合成分析存在多重、复杂的优化目标,例如总产率、立体选择性、原子经济性、起始原料的可得性和反应条件的可行性等,其中一些因素难以量化,使得逆合成分析成为一个复杂的优化问题。因此,如何设计一个高效、鲁棒的逆合成规划算法,成为有机化学领域的一个重要研究方向,结合 AI 与机器学习的逆合成工具正在成为主流命题之一。

LLM 大模型:逆合成分析的「新解法」

如果说分子设计是「画蓝图」,那么逆合成分析就像是「造工厂」,端到端逆合成智能体是攻克「老问题」的「新解法」之一。长期以来,逆合成分析由于存在庞大的搜索空间,极易陷入「组合爆炸」。BioMedGPT-Mol 团队首次探索了仅采用 LLM 大语言模型进行端到端有机分子逆合成分析。通过三阶段 SFT 微调与强化学习(RL)的「魔鬼训练」,该模型在 RetroBench 榜单上达到了 SOTA 水平。这意味着,哪怕是非专业背景的用户,也能够通过大模型和智能体获得商业可行、生产可执行的合成方案,助力缩短了从实验室验证到规模化生产的周期。

基于 BioMedGPT-Mol 的基础能力,AIR 和水木分子团队首次探索了仅使用 LLM 大语言模型进行逆合成分析规划:通过提出的三阶段 SFT 微调训练策略和 RL 强化学习,BioMedGPT-Mol 推理模型在有机分子逆合成分析任务上能力逐步提升,在基于 RetroBench 的模型能力评测榜单上达到了 SOTA 水平,证明了其可以有效作为一个端到端的有机分子逆合成规划智能体。

打开网易新闻 查看精彩图片

BioMedGPT-Mol 在有机分子逆合成规划 RetroBench 上达到 SOTA

近年来,科研人员一直在尝试将深度学习和机器学习应用于逆合成分析。随着 LLM 大模型的进展,科研人员也试图将大模型用于更高效的全局式逆合成分析。基于深度学习和机器学习的传统 AI 算法逆合成分析主要包括单步逆合成(合成前体反应物推荐、反应条件预测与反应产率估计)与多步逆合成搜索的联动。

在单步逆合成的过程中,又基于分子图像、SMILES 数据等分为多条 AI 技术路线的反应物预测推荐,以及基于反应物预测推荐的反应条件预测、反应产率预估等多个分拆的子任务。这些传统单步逆合成的问题在于难以统筹割裂的子任务,从而给出真实可行的规划路径。而在多步逆合成搜索中,还需要同时处理庞大的搜索空间、步骤依赖关系及可实验性判断等。

LLM 大语言模型的出现,有望构建单步逆合成中多个子任务以及多步逆合成搜索中单步预测、多个联合策略、全局优化等的统一框架,以智能体方式实现端到端的自动化的统筹反应物推荐、条件选择和路径规划,让不具备专业背景的用户也能轻松获得商业可行、生产可执行、可靠的合成方案,缩短从逆合成分析到实验室验证再到生产上市的周期。而基于 BioMedGPT-Mol 的逆合成规划,就是这一方向上的重大突破。

在 BioMedGPT-Mol 的三阶段 SFT 微调训练中:第一个阶段采用无 CoT 思维链的标准训练数据让模型具备多步规划的能力;第二阶段通过完整逆合成树和起始原料 SMILES 数据,对 DeepSeek-V3.1 推理能力进行蒸馏得到 CoT 思维链训练数据集对模型进行训练,从而让模型具备更高级别的逆合成分析能力,包括强调分子结构检查、关键反应位点识别以及其它规划中潜在挑战的应对等;第三阶段对训练目标进行再平衡,让模型聚焦于准确的反应物预测,以克服自然语言模型推理的内在模糊性所带来的不确定性问题等。在 SFT 微调训练之后,BioMedGPT-Mol 引入了基于 GRPO 群组相对策略优化的 RL 强化学习,从而让模型在给定数据集之外具备泛化能力。

简单理解,SFT 微调训练相当于让模型模仿给定已标注的路径,而 RL 则鼓励模型探索更为广阔的合成方案空间。水木分子团队的目标是让模型能够识别正确的商业可行的起始原料集并生成符合化学原理的中间路径,即使规划路径与 RetroBench 所提供的真实数据并不相同。为此,水木分子团队在 RL 强化学习中创新地提出了一个分级的奖励函数,包括三个渐进式子奖励组合,从而有效引导模型从基础的结构相关到化学有效性再到正确规划。

水木分子正在进一步优化该模型在逆合成规划任务上的效果,目前已经得到了更优表现,敬请关注后续开源计划。

总结

随着 BioMedGPT-Mol 的开源,面向化学分子通用任务的智能体将具备强有力的基座模型,为生物医药与合成生物领域的科研人员配备强大的研发工具。基于 BioMedGPT-Mol 首次探索了仅采用 LLM 大语言模型进行有机分子逆合成分析,为逆合成分析打开了全新的视角和创新方向。水木分子正源源不断地将科研创新成果转换为面向产业的创新工具,为合成化学打造新质生产力,助力支撑实现生物医药新兴支柱产业的国家战略愿景。