撰文丨王聪

编辑丨王多鱼

排版丨水成文

暴露组学(Exposomics)是研究生物体在整个生命周期中接触的所有环境暴露因素(例如化学物质、饮食、生活方式、污染物等)及其与健康关联的学科。其核心是理解外源性暴露如何通过分子机制影响疾病发生,与基因组学、代谢组学互补。

质谱图转化为化学结构,是暴露组学的核心难题,这使得快速追踪人体和环境中存在的数百万种化学物质变得尤为困难。与代谢组学不同,在暴露组学研究中,针对分子空间更大的化学物质开发模型的核心挑战包括数据匮乏、模型复杂性以及合适的搜索策略。

2025 年 11 月 14 日,南京大学环境学院韦斯教授团队在 Nature 子刊Nature Machine Intelligence上发表了题为:Pseudodata-based molecular structure generator to reveal unknown chemicals 的研究论文。

该研究开发了一种分子结构生成器(Molecular Structure Generator,MSGo),其能够直接从质谱生成化学结构,并在暴露组中发现未知的多氟化合物,有望成为是应对当前的多氟化合物危机的核心策略。

打开网易新闻 查看精彩图片

多氟化合物,即多氟烷基和全氟烷基化合物(PFAS),这类化合物广泛存在于不粘涂料、防水材料等工业产品中,因难以降解且在生物体内蓄积,也被称为永久化学品,已被证实与癌症、免疫毒性等健康风险相关,其引发的全球环境和健康危机被称为多氟化合物危机。由于种类繁多且缺乏检测标准,大量新型 PFAS 尚未被识别,成为全球环境治理的难题。

在这项最新研究中,研究团队提出了一种分子结构生成器(Molecular Structure Generator,MSGo),其能够直接从质谱生成化学结构,并在暴露组中发现未知的多氟化合物。通过仅使用 Transformer 神经网络对虚拟谱数据进行训练,MSGo 在验证集中正确识别了 48% 的结构,且在检测文献报道的废水样本中的新型多氟化合物时优于专家水平。对虚拟谱数据应用概率导向的掩码技术,是 MSGo 性能提升的关键。

使用 MSGo 等自动化工具,在实验性的质谱数据有限的情况下实现化学品快速发现,是应对当前未知多氟化合物危机的核心策略。

论文链接

https://www.nature.com/articles/s42256-025-01140-5

打开网易新闻 查看精彩图片