打开网易新闻 查看精彩图片

在地球上估计存在的1万亿个物种中,99.999%被认为是微生物——细菌、古菌、病毒和单细胞真核生物。在我们星球历史的大部分时间里,微生物统治着地球,能够在最极端的环境中生存和繁荣。研究人员在过去几十年中才刚刚开始应对微生物的多样性——据估计,已知基因中只有不到1%具有实验室验证的功能。计算方法为研究人员提供了战略性解析这些令人震撼信息量的机会。

作为环境微生物学家和计算机科学家,麻省理工学院新任教员黄润河对地球上最多样化和最活跃生命形式所揭示的新颖生物学感兴趣。作为生物系Samuel A. Goldblith职业发展教授,同时担任电气工程与计算机科学系和MIT Schwarzman计算学院助理教授,黄润河正在探索计算与生物学的交叉领域。

是什么促使您研究极端环境中的微生物,研究它们面临哪些挑战

极端环境是寻找有趣生物学的绝佳场所。我从小就想成为宇航员,最接近天体生物学的就是研究地球上的极端环境。而唯一能在这些极端环境中生存的就是微生物。在我参与的墨西哥海岸采样探险中,我们在海下约2公里处发现了一个色彩斑斓的微生物垫,它们之所以能繁荣生长,是因为细菌呼吸硫而不是氧气——但我希望研究的微生物都无法在实验室中培养。

研究微生物的最大挑战是大多数微生物无法培养,这意味着研究它们生物学特性的唯一方法是通过宏基因组学。我最新的工作是基因组语言建模。我们希望开发一个计算系统,这样我们就能仅使用序列数据在"计算机模拟"中尽可能多地探测有机体。基因组语言模型技术上是一个大语言模型,只不过语言是DNA而不是人类语言。它的训练方式类似,只是使用生物语言而不是英语或法语。如果我们的目标是学习生物学的语言,我们应该利用微生物基因组的多样性。尽管我们有大量数据,而且随着更多样本的获得,我们仍只是触及了微生物多样性的表面。

考虑到微生物的多样性以及我们对它们了解甚少,使用基因组语言建模在计算机中研究微生物如何推进我们对微生物基因组的理解

一个基因组包含数百万个字母。人类不可能查看并理解它。但我们可以编程让机器将数据分割成有用的片段。这就是生物信息学处理单个基因组的方式。但如果你观察一克土壤,它可能包含数千个独特的基因组,数据量太大——人类和计算机必须协同工作才能处理这些数据。

在我的博士和硕士学位期间,我们刚刚开始发现新的基因组和新的谱系,它们与任何已被表征或在实验室中培养的东西都截然不同。我们称这些为"微生物暗物质"。当有很多未表征的东西时,机器学习就非常有用,因为我们只是在寻找模式——但这不是最终目标。我们希望做的是将这些模式映射到每个基因组、每个微生物和每个生命实例之间的进化关系。

以前,我们将蛋白质视为独立实体——这能给我们相当程度的信息,因为蛋白质通过同源性相关,因此进化相关的东西可能具有相似功能。

微生物学的已知情况是蛋白质被编码到基因组中,该蛋白质所处的上下文——前后区域——在进化上是保守的,特别是如果存在功能耦合。这完全有道理,因为当你有三个需要一起表达的蛋白质形成一个单元时,你可能希望它们彼此相邻。

我想做的是在我们搜索和注释蛋白质以及理解蛋白质功能的方式中纳入更多基因组上下文,这样我们就能超越序列或结构相似性,将上下文信息添加到我们理解蛋白质和假设其功能的方式中。

您的研究如何应用于利用微生物的功能潜力

微生物可能是世界上最优秀的化学家。利用微生物代谢和生物化学将产生更可持续、更高效的方法来生产新材料、新疗法和新型聚合物。

但这不仅仅关乎效率——微生物正在进行我们甚至不知道如何思考的化学反应。理解微生物如何工作,并能够理解它们的基因组构成和功能能力,在我们思考世界和气候如何变化时也将非常重要。大部分碳固存和营养循环都由微生物承担;如果我们不理解给定微生物如何固定氮或碳,那么我们在建模地球营养通量时将面临困难。

在更具治疗性的方面,感染性疾病是真实且不断增长的威胁。理解微生物在不同环境中相对于我们其余微生物组的行为,在我们思考未来和对抗微生物病原体时非常重要。

Q&A

Q1:基因组语言模型是什么?它如何帮助研究微生物?

A:基因组语言模型技术上是一个大语言模型,只不过语言是DNA而不是人类语言。它能够处理微生物基因组中数百万个字母的庞大数据,通过寻找模式来理解微生物的进化关系和功能特性,特别是那些无法在实验室培养的"微生物暗物质"。

Q2:为什么说微生物是世界上最优秀的化学家?

A:微生物能够进行人类甚至不知道如何思考的复杂化学反应,它们承担着地球上大部分的碳固存和营养循环工作。利用微生物的代谢和生物化学能力,可以开发出更可持续、更高效的方法来生产新材料、新疗法和新型聚合物。

Q3:研究极端环境微生物面临的最大挑战是什么?

A:最大挑战是大多数微生物无法在实验室中培养,这意味着研究它们生物学特性的唯一方法是通过宏基因组学等计算方法。研究人员必须依靠计算系统和序列数据来探测这些有机体的特性。