八年前的Meta就有万亿参数模型了——这个冷知识最近被翻出来,总让人错觉技术史是一部提前写好的剧本。但生物学不讲这种叙事。上周,牛津大学公园的一个池塘里,一只连正式名字都没有的微生物,把教科书里"放之四海而皆准"的遗传规则撕了个口子。
这只微生物叫Oligohymenophorea sp. PL0344,目前只有一个编号。Earlham研究所的博士后科学家Jamie McGowan原本只是想测试新的单细胞测序流程,随手从淡水样本里捞了个原生生物当"饲料"。结果它不听话。"纯粹是运气,我们选了这只原生生物来测试测序流程,"McGowan说,"但这恰恰说明外面还有什么——凸显我们对原生生物遗传学的了解是多么贫乏。"
所谓"了解贫乏"的 polite 说法,是我们几十年来 confidently 教给学生的可能是错的,而一只池塘里的小东西刚刚从后排举起了手。
要理解它干了什么,得先回忆一下DNA的阅读方式。遗传信息以三个字母为一组读取,叫密码子。大多数密码子对应氨基酸,蛋白质的积木。但有三个特殊的——TAA、TAG、TGA——不对应任何氨基酸。它们是终止信号。细胞机器读到它们,就松开正在合成的蛋白质,转身离开。这是生物学中最保守的系统之一,细菌、蘑菇、章鱼、橡树、人类,全用同一套规则。至少我们曾这么认为。
在PL0344身上,只有TGA还在当终止信号。TAA现在编码赖氨酸。TAG现在编码谷氨酸。两个终止信号被重新粉刷成完全不同的氨基酸,而且不是刷成同一种。这个细节让这件事从"奇闻"变成了"事件"。
"几乎所有其他已知案例中,TAA和TAG都是同步变化的,"McGowan解释。生物学此前也遇到过终止密码子重新分配的情况,在其他纤毛虫、某些酵母、线粒体DNA里。模式总是相同:一个动,另一个跟着动,最终编码同一种东西。科学家假设它们在进化上被锁在一起,像两扇连在同一门框上的门。
"这极其罕见,"McGowan说,"我们不知道还有其他案例,这两个终止密码子被关联到两种不同的氨基酸。"所以门不是连着的。或者至少这个生物体找到了卸掉合页的办法。要么这条规则从未真正普适,要么进化找到了没人预料到的绕过方式——而证据就躺在两栋教学楼之间的池塘里。
这只原生生物本身并不出名。它还没有一个朗朗上口的名字,只有编号PL0344。它不是为了科学而被搜寻的目标,只是测序测试的随机耗材。但正是这种"随机",戳破了更大的盲点。
原生生物是单细胞真核生物的杂烩大类,介于细菌和多细胞生命之间。它们数量庞大、分布广泛、遗传多样性极高,但研究极度不足。测序技术过去偏向模式生物——大肠杆菌、果蝇、小鼠、人类——因为好养、好操作、已有工具链。池塘里的无名小卒排不上号。
McGowan的测序流程是专门为单细胞设计的,不需要先培养大量样本。这改变了游戏规则。以前需要把生物体哄进实验室、喂饱、让它们繁殖到够用的数量。现在可以直接从环境里抓一个细胞,读取它的基因组。PL0344是第一个被这种流程"捕获"的意外发现,但几乎肯定不会是最后一个。
遗传密码的"通用性"是分子生物学的基石教条之一。1960年代破译密码子表后,这种通用性被视为生命共同起源的证据——所有生物继承同一套操作系统。但"通用"的边界一直在被蚕食。1980年代发现线粒体使用变体密码。然后某些细菌、某些纤毛虫、某些酵母。每次发现都被归类为边缘例外,不影响核心叙事。
PL0344的特殊之处在于它改写的规模。不是微调,是双杀。而且不是对称的双杀——两个终止密码子分道扬镳,各自投奔不同的氨基酸。这挑战了关于它们为何通常同步变化的假设。如果它们可以被独立重编程,那么"锁定"就不是物理约束,而是进化选择。而选择意味着可以被不同地选择。
更深的问题在于:这是怎么发生的?遗传密码的改动不是小事。细胞里有整套基础设施——tRNA、氨酰-tRNA合成酶、释放因子——都围绕现有密码子表优化。改动一个终止信号意味着重新训练释放因子识别新的停止位置,同时防止新的氨基酸密码子被误读为终止。改动两个,而且是不对称的,意味着两套独立的重新训练。
McGowan的团队还在梳理机制细节。但已经明确的是,PL0344不是"破碎"的系统。它活得很好,在牛津的池塘里繁殖,意味着这套私人密码子表是功能完整的。进化找到了一条路径,让细胞在重写核心操作系统的同时保持运行——而且不是唯一可能的路径,因为两个终止信号选择了不同的目的地。
这对合成生物学有潜在启示。科学家一直在尝试扩展遗传密码,引入非天然氨基酸来制造新蛋白质。但进展缓慢,部分因为现有细胞机器对改动极度敏感。PL0344证明,至少某些生命形式可以承受大规模的密码子重分配。它们的解决方案可能为人工系统设计提供线索——不是模仿,而是理解约束条件在哪里是真实的,哪里只是假设。
但最直接的冲击可能是方法论层面的。PL0344的发现依赖于一个测试性的、非目标驱动的测序项目。如果McGowan当时选的是另一个原生生物,这个故事就不会存在。这意味着类似的发现可能已经在无数被丢弃的数据里,或者还在未被测序的池塘、土壤、深海热泉里。
遗传学数据库里充斥着模式生物的重复测序,而原生生物的代表性极低。这种偏差扭曲了我们对"正常"的认知。PL0344提醒我们,"正常"是一个抽样产物,而抽样有盲区。
McGowan的表述很克制:"凸显我们对原生生物遗传学的了解是多么贫乏。"但贫乏是可以改变的。单细胞测序技术正在降低探索门槛,让随机发现成为可能。下一个PL0344可能正在某个研究生的测试样本里等待,或者在某次野外采样的冰柜角落里。
教科书作者可能需要保持草稿的电子版更新。不是因为这个发现推翻了中心法则——DNA到RNA到蛋白质的基本流程仍然成立——而是因为它提醒我们,"通用"是一个需要不断检验的断言,而不是可以 resting on 的终点。池塘里的小东西不关心我们的分类框架。它只是活着,用自己的方式,而我们终于开始注意到。
热门跟贴