用AI学懂地球最古老的语言：她让DNA自己"开口说话"|dna|宏基因组|序列|微生物|生物学|科学

如果把地球生命史压缩成一天，人类大概在最后一分钟才登场。而在之前的23小时59分钟里，统治这颗星球的只有一个主角——微生物。它们数量庞大到难以想象：地球上估计有1万亿个物种，其中99.999%都是微生物。细菌、古菌、病毒、单细胞真核生物，这些肉眼看不见的生命，才是地球真正的原住民。

更夸张的是，它们几乎无处不在。深海热泉口、强酸湖泊、高辐射环境，甚至是其他生物根本无法存活的地方，微生物照样活得滋润。但讽刺的是，我们对它们的了解少得可怜。科学家估计，已知基因中只有不到1%的功能在实验室里被验证过。换句话说，我们面对的是一个数据海洋，却几乎不知道怎么读。

这正是黄允夏（Yunha Hwang）想要解决的问题。这位刚加入麻省理工学院的新晋教授，身份有点特别——她既是环境微生物学家，又是计算机科学家。在MIT，她同时隶属于生物学系、电气工程与计算机科学系，以及施瓦茨曼计算学院。她的研究方向听起来很抽象：用计算方法研究微生物。但说白了，她想做的是一件很具体的事——让DNA自己"开口说话"。

最近，她接受了一次访谈，聊了聊为什么要研究极端环境的微生物，以及怎么用人工智能来破解这些单细胞化学家的秘密。

从想当宇航员到研究海底微生物

黄允夏的研究起点，其实是个童年梦想。"我小时候想当天文学家，"她说，"而最接近天体生物学的事情，就是研究地球上的极端环境。"

这个逻辑听起来有点绕，但很有道理。如果想了解外星生命可能长什么样，地球上最接近外星环境的地方，就是那些极端角落。而在这些地方，唯一能存活下来的生命形式，就是微生物。

她真正投身这个领域，源于一次采样探险。那是在墨西哥海岸附近，团队下潜到大约2公里深的海底，发现了一片色彩鲜艳的微生物垫。这些微生物的奇特之处在于：它们不靠氧气呼吸，而是靠硫。在完全无氧、高压、黑暗的深海环境里，它们活得相当自在。

但问题来了——黄允夏想研究的这些微生物，在实验室里根本养不活。

这是微生物学研究的一个老大难问题。绝大多数微生物无法在实验室条件下培养，科学家把它们叫做"未培养微生物"。传统生物学研究讲究"可重复、可验证"，你要观察一个生物，总得先能养它吧？但对微生物来说，这招经常行不通。你根本不知道它们在野外靠什么生存，模拟的自然环境总是差那么一点。

黄允夏遇到的困境，其实是整个领域的缩影。既然养不活，那就只能换个思路——不养它们，直接读它们的基因。

这种方法叫做宏基因组学（metagenomics）。不从环境样本里分离单个菌株，而是把所有DNA一股脑提取出来，测序，然后试图从混乱的序列中拼凑出各个物种的基因组。听起来很粗暴，但确实是过去几十年微生物学最重要的技术突破之一。

不过宏基因组学也有自己的瓶颈。你拿到了海量序列数据，但怎么解读？一个微生物基因组动辄几百万个碱基对，人类根本不可能逐字逐句去看。更麻烦的是，这些序列里大部分是"暗物质"——功能未知的基因，和已知基因对不上号。

黄允夏的最新工作，就是试图用人工智能来解决这个解读难题。她把它叫做"基因组语言建模"。

教AI读DNA：一种没有标点的外语

基因组语言模型，技术上属于大语言模型（LLM）的一种。但和人类语言模型不同，它学的不是英语或中文，而是DNA。

训练方式其实很相似。GPT-4读的是互联网上的文本，基因组语言模型读的是数据库里的DNA序列。都是海量数据，都是自监督学习，都是让模型自己去找规律。只不过一个学的是"猫坐在垫子上"，另一个学的是"ATCGATCG"的排列组合。

黄允夏认为，如果想真正理解生物学这门"语言"，就应该利用微生物基因组的多样性。目前公开的微生物基因组数据已经相当庞大，而且随着采样技术的进步，新数据还在源源不断涌入。但即便如此，她说，"我们只是触及了微生物多样性的表面"。

这个判断基于一个简单的数学事实。地球上有1万亿个微生物物种，而数据库里完整测序的基因组，大概只有几十万到上百万的量级。就算加上各种宏基因组片段，覆盖度可能也不到1%。我们手里的数据看似很多，放在真实的生物多样性面前，其实只是冰山一角。

但正是这一角，已经让基因组语言模型展现出了惊人的能力。

黄允夏解释，人类无法直接阅读几百万个碱基组成的基因组，但可以训练机器把数据分割成有意义的片段。基因组语言模型的核心能力，就是学会DNA序列的统计规律——哪些序列经常一起出现，哪些结构模式暗示着特定的功能，不同物种的同类基因有什么细微差别。

这种"理解"和我们人类的理解不同。模型并不真的"知道"某个基因是干什么的，但它能捕捉到功能相似的基因在序列上的相似性，能把未知基因和已知功能的基因联系起来，甚至能预测一个基因如果发生突变，可能会产生什么后果。

在黄允夏看来，这种能力对微生物研究尤其重要。因为微生物的基因多样性太高了，你很难靠传统的序列比对方法来注释功能。两个基因序列看起来完全不同，可能做着差不多的事；看起来很像的，功能可能天差地别。基因组语言模型学到的，是一种更深层的"语义"相似性，而不是表面的序列相似性。

她打了个比方：这就像学一门外语。如果你只会背单词、查字典，遇到生僻词就抓瞎。但如果你真正掌握了语法和语感，遇到没见过的词也能猜个八九不离十。基因组语言模型试图学会的，就是这种"语感"。

从预测到发现：AI能帮我们找到什么

那么，这种"语感"具体能用来干什么？

黄允夏提到了几个方向。首先是基因功能预测。面对一个完全未知的基因，模型可以根据它的序列上下文，推测它可能参与什么生物过程。这种推测不是凭空想象，而是基于海量已知基因的学习。如果模型看到某个未知基因的"语境"和一批已知参与硫代谢的基因很像，它就可以合理猜测：这个基因可能也和硫代谢有关。

其次是发现新奇的生物学机制。微生物在极端环境里生存，往往依赖一些我们闻所未闻的生化反应。这些反应的分子机器，可能就藏在那些功能未知的基因里。基因组语言模型可以帮助科学家优先筛选出"看起来有意思"的基因，缩小实验验证的范围。

还有一个方向是进化研究。通过比较不同物种的基因组语言模型表示，可以重建它们的进化关系，甚至比传统的系统发育方法更灵敏。因为模型捕捉的不只是单个基因的差异，而是整个基因组组织的模式。

但黄允夏也强调，计算预测终究只是第一步。"in silico"（在计算机中）的研究再精巧，最后还是要回到实验验证。她的目标是开发计算工具，让科学家能更高效地提出假设、设计实验，而不是取代实验。

这种"计算-实验"的循环，正是现代微生物学研究的新范式。以前是先养菌、再测序、再研究功能；现在是先测序、再计算预测、再有针对性地培养或做异源表达。对于那99%以上养不活的微生物，这可能是我们了解它们的唯一途径。

为什么是现在：数据、算力与学科交叉

基因组语言模型不是什么全新的概念，但最近几年才真正爆发。黄允夏认为，这是几个因素叠加的结果。

首先是数据。过去二十年，DNA测序成本下降了百万倍。2001年人类基因组计划花了30亿美元，现在几百美元就能测一个人的全基因组。微生物基因组更是呈指数级增长，公共数据库里的序列数据每几年就翻一番。

其次是算力。训练大语言模型需要海量计算资源，这在十年前只有科技巨头玩得起。但现在，云计算的普及和专用AI芯片的发展，让学术实验室也能训练相当规模的模型。

最重要的是，生物学和计算机科学的融合越来越深。像黄允夏这样横跨两个领域的研究者，过去是稀有物种，现在正在成为主流。MIT为她设立的联合教职，本身就是这种趋势的一个缩影。

黄允夏的背景很有意思。她本科在卡内基梅隆大学读计算机科学和生物学，博士在加州大学圣地亚哥分校做计算生物学研究。她的导师之一，是宏基因组学领域的先驱之一。这种训练让她既能和生物学家讨论采样策略，又能和计算机科学家讨论模型架构。

她坦言，两个领域的思维方式确实很不一样。"生物学家关心的是：这个发现对理解生命有什么意义？计算机科学家关心的是：这个方法能不能推广到更大的数据集？"她的工作，就是在两种思维之间找平衡——既要有生物学上的相关性，又要有计算上的可扩展性。

未解之谜：我们还不知道什么

尽管基因组语言模型前景广阔，黄允夏也清醒地指出了它的局限。

最大的问题是可解释性。深度学习模型往往是"黑箱"——你知道它预测得准，但不知道它为什么这么预测。对于基因功能预测来说，这既是技术问题，也是科学问题。如果模型说某个基因参与氮固定，你是该相信它，还是该追问：它看到了什么特征？这个特征在生物学上合理吗？

另一个挑战是数据偏差。公共数据库里的基因组，主要来自少数几种"模式生物"和容易培养的种类。极端环境的微生物、稀有物种、病毒基因组，代表性严重不足。模型如果只在偏斜的数据上训练，学到的"语言"可能也是片面的。

黄允夏特别提到了病毒。病毒基因组和细胞生物差异很大，而且很多病毒基因没有已知的同源物。用训练细胞基因组得到的模型来分析病毒，效果可能大打折扣。这需要专门收集病毒基因组数据，开发针对性的模型。

还有一个更根本的问题：DNA序列真的包含了全部信息吗？基因组语言模型假设，序列决定了功能。但现实中，基因表达还受到表观遗传调控、细胞环境、生态互作等诸多因素影响。同样的基因，在不同条件下可能发挥不同作用。序列之外的"语境"，目前很难纳入语言模型的框架。

黄允夏认为，这些局限不是拒绝使用AI的理由，而是明确的研究方向。她的团队正在开发新的模型架构，试图整合更多类型的数据——比如基因表达数据、蛋白质结构信息、代谢网络拓扑。目标是让模型不仅读懂DNA的"字面意思"，还能理解它在细胞里的"实际用法"。

从深海到太空：微生物研究的边界

回到最初的那个童年梦想，黄允夏的研究其实从未远离"天体生物学"的视角。

极端环境的微生物，确实是地球上最接近外星生命的样本。在火星的地下卤水、木卫二的冰下海洋、土卫六的甲烷湖泊里，如果存在生命，很可能也是微生物形式，也可能依赖类似硫代谢这样的替代能量来源。

黄允夏参与的墨西哥深海采样，某种程度上就是在为未来的天体生物学任务做预演。如何在极端环境里采集样本，如何保存和运输，如何从有限的材料中提取最大量的信息——这些经验对设计火星采样返回任务都有参考价值。

但她也强调，地球本身的微生物多样性就已经足够迷人，值得投入全部精力。"我们甚至还没搞清楚自己星球上的生命，"她说，"在考虑外星生命之前，先把家门口的事情弄明白吧。"

这种态度，或许代表了新一代微生物学家的共同特点：既拥抱最前沿的技术，又保持对自然世界的敬畏；既雄心勃勃地想要破解生命的密码，又清醒地承认自己的无知。

1万亿个物种，99.999%是微生物，不到1%的基因功能被验证。这些数字既是挑战，也是邀请。在黄允夏看来，基因组语言模型不是终点，而是一把新工具——让我们能稍微看得远一点，在数据的海洋里，找到下一个值得追问的问题。

而那个问题会是什么？她也不知道。但这正是科学最迷人的地方。

用AI学懂地球最古老的语言：她让DNA自己"开口说话"

热搜

热门跟贴

热搜

热门跟贴

相关推荐

地球的第二文明—AI破译鲸鱼语言，我们竟在深渊里找到了外星人

世界模型：AI正在学习"看懂"现实

OpenAI前研究员揭露“公开秘密”：人类正打造无法完全控制的AI

美国首例：和AI聊案情，聊天记录成呈堂证供

3年AI教育困局：这家团队用1个记忆层让"智能"辅导不再失忆

AI终于把144p的UFO影像，变成4K清晰度了，你觉得如何

欧洲女孩因长得像中国人，跑来中国寻亲，DNA结果让她泣不成声

任正非没想到：被华为抛弃者今掌控全球AI命脉

自从有了Ai，小时候的动画片算是白看了

AI助力多组学与机器学习联合分析（机器学习分析代谢组、蛋白组、宏基因组、网络药理学、转录组）

π0.7的泛化能力有多强？零样本纯靠口述就能用空气炸锅

表格建模也能Scaling？树模型的时代要改变了

千问 AI 打车来了：一句话，马上出发

碾压人类纪录！快过博尔特！中国机器人跑疯了

“对打”邓亚萍、剑指AGI，王闯透露智元机器人“野心”：3年—5年实现自主学习，今明两年迎来人机交互“ChatGPT时刻”

致敬“DNA之母”，OpenAI推出首个生命科学AI模型GPT-Rosalind，加速药物研发和基因组学研究

追踪达·芬奇：30年寻访21代人的基因拼图

寻找LUCA：所有生命的共同祖先

华中农业大学在领域顶刊Nature Plants最新发表论文！

意难平！这位华裔泰斗发明的引物延伸法，直接催生两大诺奖，本人却终生无缘诺奖