如果把地球生命史压缩成一天,人类大概在最后一分钟才登场。而在之前的23小时59分钟里,统治这颗星球的只有一个主角——微生物。它们数量庞大到难以想象:地球上估计有1万亿个物种,其中99.999%都是微生物。细菌、古菌、病毒、单细胞真核生物,这些肉眼看不见的生命,才是地球真正的原住民。

更夸张的是,它们几乎无处不在。深海热泉口、强酸湖泊、高辐射环境,甚至是其他生物根本无法存活的地方,微生物照样活得滋润。但讽刺的是,我们对它们的了解少得可怜。科学家估计,已知基因中只有不到1%的功能在实验室里被验证过。换句话说,我们面对的是一个数据海洋,却几乎不知道怎么读。

打开网易新闻 查看精彩图片

这正是黄允夏(Yunha Hwang)想要解决的问题。这位刚加入麻省理工学院的新晋教授,身份有点特别——她既是环境微生物学家,又是计算机科学家。在MIT,她同时隶属于生物学系、电气工程与计算机科学系,以及施瓦茨曼计算学院。她的研究方向听起来很抽象:用计算方法研究微生物。但说白了,她想做的是一件很具体的事——让DNA自己"开口说话"。

最近,她接受了一次访谈,聊了聊为什么要研究极端环境的微生物,以及怎么用人工智能来破解这些单细胞化学家的秘密。

从想当宇航员到研究海底微生物

黄允夏的研究起点,其实是个童年梦想。"我小时候想当天文学家,"她说,"而最接近天体生物学的事情,就是研究地球上的极端环境。"

这个逻辑听起来有点绕,但很有道理。如果想了解外星生命可能长什么样,地球上最接近外星环境的地方,就是那些极端角落。而在这些地方,唯一能存活下来的生命形式,就是微生物。

她真正投身这个领域,源于一次采样探险。那是在墨西哥海岸附近,团队下潜到大约2公里深的海底,发现了一片色彩鲜艳的微生物垫。这些微生物的奇特之处在于:它们不靠氧气呼吸,而是靠硫。在完全无氧、高压、黑暗的深海环境里,它们活得相当自在。

但问题来了——黄允夏想研究的这些微生物,在实验室里根本养不活。

这是微生物学研究的一个老大难问题。绝大多数微生物无法在实验室条件下培养,科学家把它们叫做"未培养微生物"。传统生物学研究讲究"可重复、可验证",你要观察一个生物,总得先能养它吧?但对微生物来说,这招经常行不通。你根本不知道它们在野外靠什么生存,模拟的自然环境总是差那么一点。

黄允夏遇到的困境,其实是整个领域的缩影。既然养不活,那就只能换个思路——不养它们,直接读它们的基因。

这种方法叫做宏基因组学(metagenomics)。不从环境样本里分离单个菌株,而是把所有DNA一股脑提取出来,测序,然后试图从混乱的序列中拼凑出各个物种的基因组。听起来很粗暴,但确实是过去几十年微生物学最重要的技术突破之一。

不过宏基因组学也有自己的瓶颈。你拿到了海量序列数据,但怎么解读?一个微生物基因组动辄几百万个碱基对,人类根本不可能逐字逐句去看。更麻烦的是,这些序列里大部分是"暗物质"——功能未知的基因,和已知基因对不上号。

黄允夏的最新工作,就是试图用人工智能来解决这个解读难题。她把它叫做"基因组语言建模"。

教AI读DNA:一种没有标点的外语

基因组语言模型,技术上属于大语言模型(LLM)的一种。但和人类语言模型不同,它学的不是英语或中文,而是DNA。

训练方式其实很相似。GPT-4读的是互联网上的文本,基因组语言模型读的是数据库里的DNA序列。都是海量数据,都是自监督学习,都是让模型自己去找规律。只不过一个学的是"猫坐在垫子上",另一个学的是"ATCGATCG"的排列组合。

黄允夏认为,如果想真正理解生物学这门"语言",就应该利用微生物基因组的多样性。目前公开的微生物基因组数据已经相当庞大,而且随着采样技术的进步,新数据还在源源不断涌入。但即便如此,她说,"我们只是触及了微生物多样性的表面"。

这个判断基于一个简单的数学事实。地球上有1万亿个微生物物种,而数据库里完整测序的基因组,大概只有几十万到上百万的量级。就算加上各种宏基因组片段,覆盖度可能也不到1%。我们手里的数据看似很多,放在真实的生物多样性面前,其实只是冰山一角。

但正是这一角,已经让基因组语言模型展现出了惊人的能力。

黄允夏解释,人类无法直接阅读几百万个碱基组成的基因组,但可以训练机器把数据分割成有意义的片段。基因组语言模型的核心能力,就是学会DNA序列的统计规律——哪些序列经常一起出现,哪些结构模式暗示着特定的功能,不同物种的同类基因有什么细微差别。

这种"理解"和我们人类的理解不同。模型并不真的"知道"某个基因是干什么的,但它能捕捉到功能相似的基因在序列上的相似性,能把未知基因和已知功能的基因联系起来,甚至能预测一个基因如果发生突变,可能会产生什么后果。

在黄允夏看来,这种能力对微生物研究尤其重要。因为微生物的基因多样性太高了,你很难靠传统的序列比对方法来注释功能。两个基因序列看起来完全不同,可能做着差不多的事;看起来很像的,功能可能天差地别。基因组语言模型学到的,是一种更深层的"语义"相似性,而不是表面的序列相似性。

她打了个比方:这就像学一门外语。如果你只会背单词、查字典,遇到生僻词就抓瞎。但如果你真正掌握了语法和语感,遇到没见过的词也能猜个八九不离十。基因组语言模型试图学会的,就是这种"语感"。

从预测到发现:AI能帮我们找到什么

那么,这种"语感"具体能用来干什么?

黄允夏提到了几个方向。首先是基因功能预测。面对一个完全未知的基因,模型可以根据它的序列上下文,推测它可能参与什么生物过程。这种推测不是凭空想象,而是基于海量已知基因的学习。如果模型看到某个未知基因的"语境"和一批已知参与硫代谢的基因很像,它就可以合理猜测:这个基因可能也和硫代谢有关。

其次是发现新奇的生物学机制。微生物在极端环境里生存,往往依赖一些我们闻所未闻的生化反应。这些反应的分子机器,可能就藏在那些功能未知的基因里。基因组语言模型可以帮助科学家优先筛选出"看起来有意思"的基因,缩小实验验证的范围。

还有一个方向是进化研究。通过比较不同物种的基因组语言模型表示,可以重建它们的进化关系,甚至比传统的系统发育方法更灵敏。因为模型捕捉的不只是单个基因的差异,而是整个基因组组织的模式。

但黄允夏也强调,计算预测终究只是第一步。"in silico"(在计算机中)的研究再精巧,最后还是要回到实验验证。她的目标是开发计算工具,让科学家能更高效地提出假设、设计实验,而不是取代实验。

这种"计算-实验"的循环,正是现代微生物学研究的新范式。以前是先养菌、再测序、再研究功能;现在是先测序、再计算预测、再有针对性地培养或做异源表达。对于那99%以上养不活的微生物,这可能是我们了解它们的唯一途径。

为什么是现在:数据、算力与学科交叉

基因组语言模型不是什么全新的概念,但最近几年才真正爆发。黄允夏认为,这是几个因素叠加的结果。

首先是数据。过去二十年,DNA测序成本下降了百万倍。2001年人类基因组计划花了30亿美元,现在几百美元就能测一个人的全基因组。微生物基因组更是呈指数级增长,公共数据库里的序列数据每几年就翻一番。

其次是算力。训练大语言模型需要海量计算资源,这在十年前只有科技巨头玩得起。但现在,云计算的普及和专用AI芯片的发展,让学术实验室也能训练相当规模的模型。

最重要的是,生物学和计算机科学的融合越来越深。像黄允夏这样横跨两个领域的研究者,过去是稀有物种,现在正在成为主流。MIT为她设立的联合教职,本身就是这种趋势的一个缩影。

黄允夏的背景很有意思。她本科在卡内基梅隆大学读计算机科学和生物学,博士在加州大学圣地亚哥分校做计算生物学研究。她的导师之一,是宏基因组学领域的先驱之一。这种训练让她既能和生物学家讨论采样策略,又能和计算机科学家讨论模型架构。

她坦言,两个领域的思维方式确实很不一样。"生物学家关心的是:这个发现对理解生命有什么意义?计算机科学家关心的是:这个方法能不能推广到更大的数据集?"她的工作,就是在两种思维之间找平衡——既要有生物学上的相关性,又要有计算上的可扩展性。

未解之谜:我们还不知道什么

尽管基因组语言模型前景广阔,黄允夏也清醒地指出了它的局限。

最大的问题是可解释性。深度学习模型往往是"黑箱"——你知道它预测得准,但不知道它为什么这么预测。对于基因功能预测来说,这既是技术问题,也是科学问题。如果模型说某个基因参与氮固定,你是该相信它,还是该追问:它看到了什么特征?这个特征在生物学上合理吗?

另一个挑战是数据偏差。公共数据库里的基因组,主要来自少数几种"模式生物"和容易培养的种类。极端环境的微生物、稀有物种、病毒基因组,代表性严重不足。模型如果只在偏斜的数据上训练,学到的"语言"可能也是片面的。

黄允夏特别提到了病毒。病毒基因组和细胞生物差异很大,而且很多病毒基因没有已知的同源物。用训练细胞基因组得到的模型来分析病毒,效果可能大打折扣。这需要专门收集病毒基因组数据,开发针对性的模型。

还有一个更根本的问题:DNA序列真的包含了全部信息吗?基因组语言模型假设,序列决定了功能。但现实中,基因表达还受到表观遗传调控、细胞环境、生态互作等诸多因素影响。同样的基因,在不同条件下可能发挥不同作用。序列之外的"语境",目前很难纳入语言模型的框架。

黄允夏认为,这些局限不是拒绝使用AI的理由,而是明确的研究方向。她的团队正在开发新的模型架构,试图整合更多类型的数据——比如基因表达数据、蛋白质结构信息、代谢网络拓扑。目标是让模型不仅读懂DNA的"字面意思",还能理解它在细胞里的"实际用法"。

从深海到太空:微生物研究的边界

回到最初的那个童年梦想,黄允夏的研究其实从未远离"天体生物学"的视角。

极端环境的微生物,确实是地球上最接近外星生命的样本。在火星的地下卤水、木卫二的冰下海洋、土卫六的甲烷湖泊里,如果存在生命,很可能也是微生物形式,也可能依赖类似硫代谢这样的替代能量来源。

黄允夏参与的墨西哥深海采样,某种程度上就是在为未来的天体生物学任务做预演。如何在极端环境里采集样本,如何保存和运输,如何从有限的材料中提取最大量的信息——这些经验对设计火星采样返回任务都有参考价值。

但她也强调,地球本身的微生物多样性就已经足够迷人,值得投入全部精力。"我们甚至还没搞清楚自己星球上的生命,"她说,"在考虑外星生命之前,先把家门口的事情弄明白吧。"

这种态度,或许代表了新一代微生物学家的共同特点:既拥抱最前沿的技术,又保持对自然世界的敬畏;既雄心勃勃地想要破解生命的密码,又清醒地承认自己的无知。

1万亿个物种,99.999%是微生物,不到1%的基因功能被验证。这些数字既是挑战,也是邀请。在黄允夏看来,基因组语言模型不是终点,而是一把新工具——让我们能稍微看得远一点,在数据的海洋里,找到下一个值得追问的问题。

而那个问题会是什么?她也不知道。但这正是科学最迷人的地方。