Nature子刊：郑明月/张素林团队开发三维分子构象描述语言模型——ConfSeq|序列|张素林|构象|语言模型|郑明月

Nature子刊：郑明月/张素林团队开发三维分子构象描述语言模型——ConfSeq

生物世界

2026-06-13 12:15 ·上海 ·优质科技领域创作者

编辑丨王多鱼

排版丨水成文

大语言模型（LLM）通过从序列数据中学习，已在许多领域带来了革命性变革，但其在三维分子建模中的应用一直受到阻碍，原因在于缺乏对分子构象进行有效基于标记的表征方法。

2026 年 6 月 11 日，中国科学院上海药物研究所郑明月、张素林团队（熊嘉诚、石宇琪、吴敏为论文共同第一作者）在Nature Machine Intelligence期刊发表了题为：Bridging three-dimensional molecular structures and artificial intelligence with a conformation description language 的研究论文。

该研究开发了一种分子构象描述语言模型——ConfSeq，其可将三维分子构象编码为离散标记序列，从而把构象预测、从头三维分子生成、形状条件分子生成和三维分子表征学习等任务转化为序列建模问题，并在多个基准测试和药物发现案例中验证了方法的有效性。

在这项最新研究中，研究团队开发了一种构象描述语言——ConfSeq，通过将三维分子结构编码为离散的标记序列来填补大语言模型在三维分子建模中应用的空白。

ConfSeq 将分子 SMILES 与内部坐标（包括二面角、键角和伪手性描述符）相结合，从而确保 SE(3) 不变性，并保留了 SMILES 固有的简洁性和人类可读性。通过将核心的三维分子建模任务（包括构象预测、从头生成和表示学习）重新表述为序列建模问题，ConfSeq 使得标准 Transformer 架构能够在多种基准测试中达到最先进性能（SOTA）。