编者语:

该方法避免了严格定义反应类型的局限性,转而让系统直接从Voronoi单元中发现并利用转化模式间的相似性。

01

打开网易新闻 查看精彩图片

背景介绍

在当今科学飞速发展的时代,化学领域正面临着一个前所未有的挑战:信息爆炸。每年有数十万个新化学反应被报道,加入已经包含数百万个已知反应的庞大知识库。然而,手动查阅文献变得低效且高度依赖个人经验,这些海量信息逐渐成为了化学家的负担。并且,传统的化学合成依赖研究人员的专业知识和直觉,往往需要通过反复试错来优化反应条件(图1)。即使是经验丰富的化学家,也难以掌握所有快速发展的实验方法学。这种局限性也影响了自动化合成平台,缺失的实验方案常常需要人工干预关键参数。尽管大型语言模型(LLMs)在化学领域已展现出应用潜力,但现有系统难以可靠地处理各种全新化合物的复杂转化,且在提供可重复、完整、带可信度评估的实验方案方面存在明显不足。

打开网易新闻 查看精彩图片

1. 传统经验式试错合成(AI图)

2026年01月19日,耶鲁大学Victor S. Batista与Timothy R. Newhouse团队在Nature期刊发表题为“Collective intelligence for AI-assisted chemical synthesis”的研究论文。该研究开发了一种名为“多优化专家AI辅助化学预测”的计算框架(MOSAIC框架,Multiple Optimized Specialists for AI-assisted Chemical Prediction),旨在让化学家能够利用数百万反应方案的集体知识(图2)。MOSAIC基于Llama-3.1-8B-instruct架构构建,在Voronoi聚类划分的空间中训练了2,498个高度专业化的化学专家模型。该方法能够为复杂合成提供可复现、可执行的实验方案,并附带置信度评估指标。实验验证显示,其整体成功率达到71%,实现了 35 种以上新化合物的合成,涵盖药物、材料、农用化学品和化妆品等多个领域。值得注意的是,MOSAIC还能够发现超出其训练专家知识范围的全新反应方法,这是推动化学合成发展的关键能力。通过将庞大知识领域划分为可搜索的专家区域,这一可扩展范式为在信息增长速度超越知识获取与应用效率的领域中实现AI辅助发现,提供了一种具有普适性的解决策略。

打开网易新闻 查看精彩图片

2. 图文总览

02

打开网易新闻 查看精彩图片

图文解析

1.革命性设计:从通用模型到化学专家委员会

研究团队首先开发了一种称为核度量网络(KMN)的系统(图3),能够将化学反应转化为128维的“反应特异性指纹”。这种指纹类似于人类的指纹,能够唯一标识每个化学反应的特征。通过FAISS相似性搜索库,化学反应空间被划分为2,500个Voronoi区域,每个区域由专门的专家模型负责。

这种设计的巧妙之处在于:当遇到一个新的合成问题时,系统会先确定这个问题属于哪个化学空间区域,然后激活对应的专家提供解决方案。这就好比不是询问一个“通才”,而是咨询一个专门研究此类反应的“领域专家”。

MOSAIC的核心创新在于其独特的架构设计。与传统的单一大型语言模型不同,MOSAIC基于Llama-3.1-8B-instruct架构,训练了2,498个专业化学专家,每个专家负责特定的化学反应空间。

打开网易新闻 查看精彩图片

3.MOSAIC系统框架示意图

2.专业化优势

研究团队还MOSAIC与当前的主流大语言模型进行了系统比较,包括ChatGPT-4o mini、Claude 3.5 Haiku、Claude 3.5 Sonnet和ChatGPT-o1 Pro。评估涵盖了12种重要反应类型,包括Suzuki偶联、烯烃复分解、Buchwald-Hartwig胺化等。结果表明,尽管MOSAIC只有80亿参数,远小于ChatGPT-o1 Pro和Claude 3.5 Sonnet等模型,但其在提供明确化学合成指导方面表现更优(图4)。这表明在专业领域,针对性的微调和化学特定的优化可以克服原始参数数量的优势。评估还发现,遵循指令的能力与化学知识同样重要。通用模型在相同提示下表现出显著不同的响应一致性。例如,Claude 3.5 Haiku在一次试验中能提供详细回答,而在另一次试验中则拒绝回答,声称信息不足。这种不一致性给寻求可靠帮助的用户带来了挑战。

打开网易新闻 查看精彩图片

4. 提示设计与量化评估指标

3.从预测到实践:71%的成功率验证

实验验证表明,该系统在合成超过35种新化合物时达到了71%的整体成功率。这些化合物涵盖药物、材料、农用化学品和化妆品等多个领域(图5和图6)。

更为重要的是,MOSAIC展现出了强大的预测能力:当转化反应与专家知识域距离较近(距离<100)时,成功率超过75%;即使距离较远(>100),仍能达到约50%的成功率。这为实验优先级提供了量化依据——研究人员可以优先尝试高置信度的预测,同时将资源合理分配于探索性研究。

具体案例充分展示了MOSAIC的实用价值。在Buchwald-Hartwig胺化反应中(药物分子中普遍存在的碳氮键形成反应),MOSAIC不仅准确预测了条件,还展示了深刻的化学洞察力,为不同底物提出了钯催化的Buchwald-Hartwig、铜催化的Goldberg和SNAr反应作为可行替代方案(图5)。

在合成具有临床重要性的化合物衍生物,如抗抑郁药去甲替林和降胆固醇药物非诺贝特时,这种多功能性被证明非常宝贵。MOSAIC还成功指导了Heck偶联反应,其中先前报道的转化已被证明不成功,展示了其解决合成瓶颈的潜力。

打开网易新闻 查看精彩图片

5.基于计算预测指导的全新化合物合成

4.超越已知:发现全新反应方法学

MOSAIC最引人注目的能力是能够发现训练数据中不存在的新反应方法学。在案例研究中,研究团队使用杂芳基二卤化物的级联环化来形成吲哚的生物电子等排体类似物。研究表明,5-氮杂吲哚衍生物的合成在现有方法下无法进行。基于这一局限性,MOSAIC指导开发了一种通过杂芳基二卤化物与N-烷基烯丙胺的未报道环化反应来合成各种氮杂吲哚的新方案(图6, 13a-d)。

对于形成目标产物的反应,最近的专家质心距离为320,远高于典型的置信阈值(<150)。缺乏密切相关的前例反应表明,该预测远远超出了知识空间,从预测专家的角度来看,这是一个真正的新转化。

打开网易新闻 查看精彩图片

6. 面向跨化学工业转化应用合成的化合物

5.实际应用:从药物开发到材料科学

MOSAIC的实际影响跨越多个化学工业领域。在药物研发方面,它准确预测了类药分子的合成路线;在材料科学中,精确预测了电子器件共轭化合物的合成路线;在农业化学中,实现了用于作物保护的pyrabactin变体的创建;在消费品领域,成功合成了潜在香料和抗衰老化合物(图6)。

特别值得关注的是,在37种实现的化合物中,有35种使用排名最高的预测一次尝试即成功,只有两种需要较低排名的程序。这些成功应用代表了所检查转化的大多数,尽管并非所有预测都产生了成功的结果。

03

打开网易新闻 查看精彩图片

总结

这种利用计算搜索的方法原则随着数据和资源的增加而有效扩展。通过将巨大的化学反应空间划分为可搜索的Vonoroi区域并将专家分配给这些区域,MOSAIC可以随着更多数据的可用而不断扩展其覆盖范围和精度。通过FAISS的搜索机制实现了高效导航,使系统能够快速识别任何给定查询的最相关专家模型。MOSAIC的价值不在于取代化学专业知识,而在于快速调查广阔的化学空间,确定有希望的实验方向,否则这些方向需要广泛的文献回顾和积累的经验。它将传统的迭代试错方法转变为知情探索,加速进入以前未知的化学空间区域。

文献信息

Haote Li, Sumon Sarkar, Wenxin Lu, Patrick O. Loftus, Tianyin Qiu, Yu Shee, Abbigayle E. Cuomo, John-Paul Webster, H. Ray Kelly, Vidhyadhar Manee, Sanil Sreekumar, Frederic G. Buono, Robert H. Crabtree, Timothy R. Newhouse & Victor S. Batista, Collective intelligence for AI-assisted chemical synthesis, Nature, 2026, https://doi.org/10.1038/s41586-026-10131-4

声明:

1. 版权:推送内容仅供学习交流分享使用,无任何商业用途,如有侵权,请联系后台删除或修改,感谢支持。

2. 投稿:非常欢迎各位老师在公众号上介绍课题组前沿或经典研究成果!后台或邮箱联系即可!