拥有人类基因组的全部序列,就像拥有了制作人类身体所需的指南的每一页。

——《美国国立卫生研究院人类基因组计划完成报告》,2010

早在人类基因组测序工作完成的五十年前,在基因还未开始占领科学期刊头条和药品货架之前,甚至是在我们还不知道DNA是双螺旋结构之前,基因组就已经被看作是一种语言。1952年,物理学家埃尔温·薛定谔(Erwin Schrödinger)将他的一部分研究热忱转移到了生物学领域。彼时,他已经因为在量子力学领域的工作而闻名于世。他设想了那只以他的名字命名的猫——被关在盒子里,同时处于生与死两种状态,除非你打开盒子来确认它究竟处于哪一种状态。薛定谔在生物学领域也同样有巨大的影响力,他假定在DNA由共价键连接的碱基里,包含了一种可以传递遗传信息的编码文本。

我们对DNA的喜爱持续了将近75年,从一开始,这种粘稠的物质就一直被当作语言来讨论。而如果把DNA看作是语言,那么基因组就是书——书不仅仅是语言的容器,同时还是一本指南。DNA开始被称作是生命的语言。有很多人认为如果我们能阅读它的话,我们就能理解成为人类意味着什么。这种类比已经十分普遍了,以至于我们在讨论遗传学的时候几乎不得不使用这套语言。科学家在他们谈论和写作有关DNA的过程时,使用“读取DNA”(reading DNA),“引物”(primer)*,“编辑DNA”(editing DNA),“转录”(transcribing)和“转座”(transposing)这样的词汇。遗传学里的语言类比同样体现在一系列对专业问题的描述中,从“变异”(mutation)到“选择”(selection),再到 “中性漂变”(neutral drift)、“基因重组”(recombination)、“水平基因转移”(lateral gene transfer)、“间断平衡论”(punctuated equilibrium)等。

*译者注

primer也有儿童启蒙读本的意思。

作为一种非正式的理论框架,尽管这种类比在遗传学研究中很普遍且显然实用,我们仍然应该思考为什么它会管用,并且评估它是否会在某些时候低于我们期待它所具有的价值——而它承载了我们有关DNA未曾言明的期望。

并且评估它是否会在某些时候因为我们对其未曾言明的期望,而被拖入错误的方向。

- Florent Hauchard -

这种思考很重要,因为我们依旧在用75年前的类比模型描述基因组,可我们对基因组的实际理解早已取得了极大的进展。就像20世纪著名的科学哲学家托马斯·库恩(Thomas Kuhn)所认识到的那样,隐喻也是理论的一部分。如果我们对一个事物的理解发生改变,比如说DNA,那么我们所用来描述它的隐喻也应该随之改变,否则这种隐喻可能会阻碍进一步的科学发现。

这到底是谁的文字?

如果把DNA看成是一种人类语言,那么它会不会跟英语一样,充满了无数的例外规则和令人困惑的拼写?或者它可能更像是德语,有着高度明晰的概念?再或者像印地语*一样有着精确的语音?或者如同我们这种通过性来繁殖的生物一样,它可能更接近于罗曼语族(romance language)。或许与进化调情的基因组更像是用法语或意大利语写的书。但即便我们问“DNA像哪种人类语言”这样的小问题,也还是会引出另一个更大的问题:将DNA与语言作类比究竟意味什么?

将这个问题再推进一步。在使用罗曼语文字的语言中,有26个字母和一些单独的标点符号,比如句号和问号。而DNA只有4个字母,并且基本上就是用这些字母的序列来构成标点符号方案**。

*译者注

*这里可能是指印地语有明确的音系特征,也可能是指印地语语音的韵律特征比较丰富,包括语调、轻重、停顿、长短、鼻音和清浊都会对语义产生影响。

**即DNA的剪切位点等结构都是由碱基序列所决定的,而不像语言有另外的标点符号。

当我们把DNA碱基对说成是字母时,这是不是也暗示着要将基因视作单词?由一个基因所编码的蛋白质平均包含500个左右的氨基酸,而基因序列长度则超过一千个碱基对。而这仅仅是一个平均单词的长度!比英语中最长的单词“矽肺病”(Pneumonoultramicroscopicsilicovolcanoconiosis)还要长得多(矽肺病是一种肺部疾病,也称为硅肺,由慢性吸入二氧化硅粉尘引起)。

- Script & Seal -

如果把一个生物体的DNA比作一本书或是指南,那么一些生物则有精简的编辑。一只河豚的基因组只有3.4亿个核苷酸字母,而此刻一只游动在它旁边的石花肺鱼(marbled lungfish)的基因组则几乎是它的四百倍长。但如果你认为人类作为复杂而智慧的生物,DNA序列应该比石花肺鱼长,那你就错了。人类只有大约30亿个碱基对,相当于一本中篇小说的长度,完全比不上石花肺鱼那鸿篇巨制般的史诗著作。而日本重楼百合(Paris japonica),一种有着白色星形花瓣的小型植物,它的基因组书甚至比肺鱼的还要冗长。如果你以一秒一个碱基对的速度来阅读这本1500亿碱基对的天书,你读完它差不多需要5000年。在这么小小的一朵花里,蕴含着50倍于你的人类基因组的长度!是我们低估了这朵花的复杂性吗?还是说能刻画这种复杂性的DNA和基因组根本不该看作一本书,而是其它别的什么?

一个人,一项计划,

一条巴拿马运河

与之相比,病毒可能是最缜密的编辑,它们用推特或俳句就能准确传达意义。这些文本甚至可以是回文序列(从前到后或从后往前读都表达意义),比如“一个人,一项计划,一条巴拿马运河”(A man, a plan, a canal—Panama)。病毒是追求精练的作家。

有时基因组文本里甚至会有这样的删除线,意思是请不要读这句话。当一段DNA被甲基包围时就会发生这种情况,这对表观遗传活动而言十分重要。

要明确的是,对于生物学家和遗传学家来说,听到“DNA转录”这样的术语并不会让他们联想到抄录圣经的僧侣,就像一般的音乐听众不会在听到“披头士”(The Beatles)时想到昆虫一样。这些术语网络,虽然最初是从语言的类比而来,但它们的意义已经在生物学领域内发生特化。然而,对于公众和非遗传学领域的科学家们来说,此类术语的原本意义仍然会影响他们理解遗传学和DNA的方式。比如“读取DNA”(reading DNA)这个表达。人类基因组计划让我们能够确定基因组的序列,但这跟“阅读”的本意还相去甚远。最开始的测序工作更像是理解一篇用你完全不懂的语言所写的文本——你当然可以清楚辨认其中的字母,但却几乎不能理解文本的意义。经过后续大量的研究工作,我们才得以破译其中一部分的文本内容。

事实上,将基因组测序和理解这本指南之间划等号已经造成了危害。一方面就表现在基因歧视与偏见上,例如。有些法院会问是否存在一种跟暴力有关的基因——这个提问暗示了单个基因与人类的复杂行为之间有简单的关联关系。尽管一些研究确实表明某些基因与暴力预测因子相关,但相关性不是因果性,况且因为基因数量庞大,往往任何研究的结果都可以表现出统计学相关性。一个更科学、更明智的司法部门会避免此类空谈的理论。或者,如果他们一定要进行推测,他们会转而考虑是否存在暴力行为的表观遗传诱发因素,或是其他适应性发展与习得性行为反应——更不消说从社会层面考虑可能导致暴力的因素,如系统性不公、种族主义、绝望症(diseases of despair,即药物过量,自杀和酒精性肝病),甚至枪支法等。这样一来,这些问题就会变得大不相同——至少可以上浮到可变的社会政策层面,而不是在不可变的遗传学层面考虑。

同样,有的基因检测试剂盒上的说明远远超出了已知的科学水平。发现某人具有“焦虑基因”或“抑郁基因”是一种极度的简化,而这可以归结于我们对基因作为指南的幼稚认识,误以为每一种特质或行为都可以与指南的某一章节相关联起来。

- Nick Taylor -

“指南隐喻”带来的一个更普遍的问题是:目前已经确定在演化和有机体发育过程中,有多种遗传系统通过极为复杂的调控反馈相互作用,特别是在复杂有机体中。神经元、肌肉细胞和红细胞之间的明显区别主要来自于发育的差异和表观遗传表达,而非它们基因组的区别。如果仅仅依赖于DNA指南的话,就不可能解释细胞分化和特化了。

虽然这些发现可能给我们使用语言隐喻按了一个暂停键,但只要我们认识到它们仅仅是隐喻和类比,而非生物遗传和发育本身的过程,我们还是可以对其进行修正和发展,然后继续使用。也许基因组就像是一个文档的纯文本,而其他遗传系统则代表着风格(styling)。表观遗传、细胞层面和文化层面的遗传系统,可以将这一文本转换成其他形式,比如一本有声书,其中语调信息就可以传递纯文本的所不能表达的含义。这样的音频资料可以作为独立的遗传系统,而不受原始文本的限制。

最后,DNA与语言之间类比的丰富性可能来自于语言也是可以演化的这一事实。语言,就像基因组和有机体那样可以演化,虽然是以不同的方式。事实上,语言研究人员已经借鉴了遗传学和进化生物学的工具来分析语言演化过程中的改变,就像仿生学从大自然中探寻人工设计的灵感一样。

在复杂有机体中,这些多重遗传系统似乎是相互作用产生的,而这正是我们在努力揭示的演化的奥秘的一部分。如果演化是一个故事,而DNA是剧本,那么这整场演出和舞台指示都还藏在深深的幕后。

作者:Luke Shors | 封面:Nick Taylor

译者:晏梁 | 校对:阿歪

编辑:杨银烛 | 排版:光影

原文:

https://neo.life/2020/12/we-call-dna-a-language-is-it/

本文来自微信公众号“Neugeist”,谢绝转载到其它平台。如需开设白名单,请在后台回复“转载”,查看转载规范。公众号改版,星标“神经现实”公众号,不错过任何一条消息。