编辑丨王多鱼

排版丨水成文

大语言模型(LLM)通过从序列数据中学习,已在许多领域带来了革命性变革,但其在三维分子建模中的应用一直受到阻碍,原因在于缺乏对分子构象进行有效基于标记的表征方法。

2026 年 6 月 11 日,中国科学院上海药物研究所郑明月张素林团队(熊嘉诚、石宇琪、吴敏为论文共同第一作者)在Nature Machine Intelligence期刊发表了题为:Bridging three-dimensional molecular structures and artificial intelligence with a conformation description language 的研究论文。

该研究开发了一种分子构象描述语言模型——ConfSeq,其可将三维分子构象编码为离散标记序列,从而把构象预测、从头三维分子生成、形状条件分子生成和三维分子表征学习等任务转化为序列建模问题,并在多个基准测试和药物发现案例中验证了方法的有效性。

打开网易新闻 查看精彩图片

在这项最新研究中,研究团队开发了一种构象描述语言——ConfSeq,通过将三维分子结构编码为离散的标记序列来填补大语言模型在三维分子建模中应用的空白。

ConfSeq 将分子 SMILES 与内部坐标(包括二面角、键角和伪手性描述符)相结合,从而确保 SE(3) 不变性,并保留了 SMILES 固有的简洁性和人类可读性。通过将核心的三维分子建模任务(包括构象预测、从头生成和表示学习)重新表述为序列建模问题,ConfSeq 使得标准 Transformer 架构能够在多种基准测试中达到最先进性能(SOTA)。

打开网易新闻 查看精彩图片

ConfSeq 将三维分子构象编码为离散标记序列,并用于构象预测、三维分子生成与三维表征学习等任务

在药物发现应用中,研究团队利用基于 ConfSeq 的三维表征开展基于配体的虚拟筛选,发现了多个新型STING 抑制剂ALDH1B1 抑制剂,其半数最大抑制浓度范围为 0.338–3.51 μM。

总的来说,该研究从分子表示方式入手,为语言模型处理三维分子任务提供了新的技术路径。相关结果表明,面向三维构象的序列化表示可作为 AI 药物设计关键技术体系的有益补充,为分子建模、虚拟筛选和候选分子发现提供新的计算工具。

论文链接

https://www.nature.com/articles/s42256-026-01250-8

打开网易新闻 查看精彩图片