什么叫基因的群体差异呢?

在你身体绝大部分细胞中,都有一套完整的DNA,一共 23 对,46 条。每一条,都像一把巨长无比的梯子,每一层不是 A-T,就是 C-G组成。加起来一共约有 60 亿层。

找 100 个人,把他们的 DNA 全测了,然后统计在 1 号梯子,第 5 层上都是什么类型,发现 A-T 组合出现的比率是 20%。

然后再找 100 个人,发现在这个群体里, A-T 组合出现的比率为 70%。

70% - 20% = 50%

这就是基因的群体差异,具体说就是某条 DNA 的某个具体位置上,不同的群体,针对某个类型,比例存在差异。

两个群体的基因差异越大,还意味着有比例差异的 DNA 位点数目多。

在29235 位各色小伙伴中, GSA 芯片老用户有 10752 位,ASA 芯片新用户有 18483 位。因为这 2 款芯片差异有些大,我们分别探索了这两个群体,并且得到了较为一致的结论。

简单说,在中国汉族群体内部,我们发现了基于地域的基因群体差异:

  1. 从中国北部到南部,呈现连续变化,主要可以分为 3 类:长江以北的汉族,长江以南的汉族,珠江流域的汉族。

  2. 从中国东部到西部,分类略复杂,在长江以北的汉族,东西方向没有展示出明显的差异;而在长江以南的汉族,以及珠江流域的汉族,则呈现明显的连续变化。

综合上面南北和东西差异,我们发现在中国汉族内部,可以分为 5 类:

  1. 北方汉族:代表省市如山东,山西,河南,河北,辽宁,黑龙江,陕西等;

  2. 中部汉族:代表省市如长江以南的江苏,安徽和浙江等;

  3. 西南汉族:代表省市如四川,重庆和贵州等;

  4. 东南汉族:代表省市如台湾,福建和广东东部等;

  5. 南部汉族:代表省市如广西,海南和广东西部等。

这个分类是如何做到的?总之是一个蛮复杂的过程,简单描述就是,把一个「人数 X 基因位点数」的矩阵,进行疯狂降维和聚类,在这个过程中,尝试使用了PCA,TSNE,UMAP 等方法,经过多次尝试和调整,确定了当前的分类。(看不懂也没关系,就是结论来之不易)

分类完成后,接下来就是做进一步的分析,既然能分成 5 类,那到底是在哪些基因位点上存在群体差异?

为了更好的做对比,我们主要探索了,从北到南 3 个群体的基因差异,即长江以北的北方汉族,长江以南的中部汉族,珠江流域的南方汉族。

对于 GSA 老用户,

南方汉族和北方汉族有 6869 个显著差异的基因位点;

南方汉族和中部汉族有 391 个基因位点存在显著差异;

北方汉族和中部汉族有 1466 个基因位点差异。

而对于 ASA 新用户,(由于这款芯片是针对中国群体设计的,发现了更多差异位点)

南方汉族和北方汉族有 30729 个显著差异的基因位点;

南方汉族和中部汉族有 4023 个基因位点存在显著差异;

北方汉族和中部汉族有 2412 个基因位点差异。(p <= 1×10-8)

那这些基因差异,究竟与哪些人体特征相关,即南北汉族,在哪些方面存在差异?

就拿胆固醇这个差异较大的特征来说吧。

你可以在自己的基因报告中,查看自己 3 项关于胆固醇的解读:总胆固醇,高密度脂蛋白胆固醇,低密度脂蛋白胆固醇。

接下来我们只关注总胆固醇。

总胆固醇水平和健康风险有关,水平越高,动脉粥样硬化性心血管疾病(ASCVD)的风险越高。除此之外,中年总胆固醇水平升高,还与阿尔兹海默症等认知障碍相关。

针对南方汉族、中部汉族和北方汉族 3 个群体,计算总胆固醇的基因分数,会发现:北方汉族在基因上,总胆固醇水平更高,而南方汉族的总胆固醇水平最低。

这和 2020 年发表在柳叶刀-公共健康上,一篇针对近百万中国人心血管疾病风险的调研结论相呼应。心血管疾病的高风险人群比例在北方最高,约为 12%,而在南方最低,约为 8%。

所以即使南方人民的主食并不健康,比如更少的全谷物和豆类,也不太爱运动,但是心血管疾病风险最低,这可能也有基因在起保护作用吧。

除此之外,酒后脸红的概率,南北方也有差异。

这就涉及到一个大家很熟悉的基因位点——rs671。

rs671 在 12 号染色体,ALDH2 基因上,如果这个位点的类型是 AG 或 AA,人体内代谢乙醛的酶效率更低,乙醇代谢成乙醛后,会在体内积累,刺激毛细血管,典型表现就是酒后会脸红,心跳加速,感觉不舒服。

而针对南、中和北 3 个群体的统计发现,携带 A 的频率,从南往北逐渐降低,这也就说明,南方人酒后脸红的概率更高,可能更无法喝太多的酒。

*具体的基因位点和人体特征之间的研究,目前最多的积累来自全基因组关联分析(Genome-wide association study, GWAS)。 这个平台通过一定的方法,把相关的研究整合后,免费开放给大家查询和参考。截止到今年 8 月,已收录 5931 篇 GWAS 研究,415784 个基因位点和特征的关联。

拿到原始的基因数据的各色小伙伴,如果想进一步探索,也可以借助这个平台。

参考 GWAS Catalog 的数据,我们总共找到在 639 特征上,南、中和北汉族群体,可能存在显著差异,其中绝大部分涉及一些生理指标。

看到这里(好奇有多少小伙伴能到这里,哈哈),你可能有些不满足,想知道汉族内部的这些差异是如何形成的,为何会有这样的差异?

要回答这个问题,就得回到「时间」这个尺度上了。

如果把整个东亚人类演化,比作一条长长的面包,我们做的分类探索,展示的就是一个横切面,是当下的结果描述,而如果要问这个结果是如何形成的,就需要从时间上溯源,而这就是分子人类学中,最激动人心的探索。

我们还是从和酒后脸红有关的 rs671 开始。

因为对它的研究较多,正好可以借此了解下,结合一个 DNA 位点的地理分布和功能,了解下不同基因类型的产生,扩散和选择。

首先,rs671 这个位点有两种类型,G 和 A,从时间上看,哪一个是最原始的,哪一个是后来产生的?这一点目前没有异议,A ,也就是这个让人喝酒脸红的类型,是后来产生的。

怎么推断出来的?

一个很重要的原因是,由于现在生活在地球上的所有人类,也就是现代人,都来源于共同的祖先,他们最早都是从非洲走出来的,慢慢在全球扩散。

而 rs671 的 A 点突变,主要分布在东亚群体,而在非洲和欧洲人群中几乎不存在,所以可以推测,A 点突变是到达亚洲的祖先,在这里长久生活后产生的。

那为什么会产生这个突变?这个答案则相对简单,几乎所有的突变(mutations)产生都是随机的,是 DNA 在复制过程中出现的 bug,而不是因为对某些环境因素的适应,所产生的。

而更重要的是,这个突变是如何在群体中扩散的?目前并没有准确答案。有种说法是,A 点突变最早产生于中国东南沿海的百越部落(Pai-Yuei tribe);也有一种说法是,突变产生于中部汉族,通过人口迁徙传播到南方汉族。

最后,按照一般的进化规律,这个看起来对健康有害的突变,难道不应该被淘汰吗,为什么能保留下来?

首先,A 点突变展现了基因功能的多样性。

它确实对健康有害,除了不能很好代谢酒精,还会增加心血管疾病,中风和某些肿瘤的风险;

但它同时也存在优势,比如可以减轻乙肝病毒的肝脏损伤,而乙肝病毒在东南沿海的感染率最高,这可能也是 A 点突变在南方汉族中分布频率较高的原因之一。

再就是A 点突变的人,更不适合在高海拔缺氧的环境中生存,而东南沿海地区,植被茂密,氧气充足,更适合 A 点突变的人生存,相比之下,A 点突变在西藏地区的频率较低。

所以借助位点 rs671,从地理分布差异出发,可以延伸出很多思考。

每一个能显著影响功能的基因位点,都能告诉我们关于人类演化的很多信息。所以针对汉族群体内部有差异的基因位点,做进一步的探索,可以告诉我们很多关于演化的线索。

我们再看看从群体演化角度,如何通过基因数据,来推断汉族的形成。而要想回答这个问题,需要借助古人类DNA 的数据。

而要想了解东亚,或者中国汉族的演化历史,我们先简单说下,全人类的演化。

几个要点:

  1. 人类和黑猩猩,在 500 万-700 万年前,分道扬镳,开始了自己的进化。

  2. 人类在约 700 万年的进化中,按照时间先后,有几个重要的类别,比如南方古猿,能人,直立人,智人,智人有包括早期智人和晚期智人,晚期智人说的就是我们,也可以称之为现代人。

  3. 当前学界的一个共识是,人类起源于非洲,并且从非洲往全世界扩散。

  4. 学界一般认为直立人起源于非洲,在中国境内有发现了很多直立人的化石,比如著名的北京人,他们约在 180 万年前第一次走出非洲。

  5. 早期智人第二次走出非洲,比如现在发现的尼安德特人和丹尼索瓦人,生活在距今 80 万年- 3 万年前。

  6. 现代人,晚期智人,也就是我们现在生活在地球上的人类,大约 20 万年前在非洲出现,并且大约在 5-6 万年前,走出非洲,扩散到全世界。

总体来说,人类可能会多次走出非洲,但是可能自动消失了,或者被后来走出非洲的人类所取代,而在这个过程中,不同类别之间可能存在基因交流。

比如现代人,在走出非洲后,很早可能就遇到早期智人,并发生了基因交流,生下后代。

2010 年,Svante Pääbo 教授团队克服重重困难,在「科学」杂志上,发表了 3 个尼安德特人和 5 个现代人的测序结果,约在 12 万年前,两者发生基因交流,即现在全球生活的现代人,有尼安德特人的基因片段,大概约为 2% 左右。而对于古人类 DNA 开创性的研究,Svante Pääbo 教授获得了今年(2022)的诺贝尔生理学/医学奖。

好啦,让我们再回到东亚,把时间尺度缩小到几万年,甚至更短,我们来看看针对东亚或者中国境内的古DNA 研究,能告诉我们什么。

2020 年,中国科学院古脊椎动物与古人类研究所付巧妹团队,在「科学」杂志上发表了一项重磅研究,针对在中国境内南北 26 个古人类的遗骸进行了测序(生活在 9500 - 300 年前),并且与现在生活在中国北方(内蒙古和山东,16 人),以及南方(福建和台湾,8 人)的 DNA 数据,做了一系列的探索。

研究发现,从 DNA 数据看,早在 9500 年前,中国的南北就有基因上的差异,也就是所谓的南方人和北方人,并且古老的北方人和现代的北方人关系更近,古老的南方人和现代的南方人关系更近。

再进一步探索还发现,古人类在基因上的南北差异会更大,也就是说,从 9500 年前到现在,南北人群不断融合,基因不断交流,从而导致差异越来越小。

并且数据显示,在这个过程中,北方古人类的影响更强势,即可以观察到,现代生活的南方和北方人,都与古人类北方人,有一定的亲缘关系。

南方也会往北渗透,但是程度更低一些。该研究还发现,古人类北方的强势群体,主要来自黄河下游地区,这也常被认为是中国汉族的起源地。

2021 年,厦门大学人类学研究所王传超团队,在「自然」杂志上分享了最新的研究成果,他们探索了东亚公元前 6000 年和 1000 年的 166 个古人类 DNA,以及当代 46 个群体的 DNA 数据,描绘出复杂的东亚人口的迁徙和融合。

现代人的祖先大概 5-6 万前走出非洲,有些走陆路,有些走海路,并且在这个过程中不断融合,逐渐减少彼此的差异。

不过这么多年过去了,我们还是能在中国汉族群体内部找到基因上的差异。毕竟遗传物质相对是比较稳定的。有研究发现,人与另一半 DNA 融合产生的后代,后代可能只会产生 60 个新生突变,而人类基因组有 60 亿个碱基对,也就是没代人单碱基的突变率为 1 x 10-9,是非常低的数字,并且突变就算产生也不一定能被环境选择,从而保留下来。

好了,以上就是针对中国汉族群体南北方基因差异的探索啦~ 看完之后,是不是有听君一席话,如听一席话的感觉。

你的感觉没错,针对稍微复杂一点的主题,DNA 研究非常初步,每次有新的研究出来,虽然会带来一些新发现,但会带来更多新问题,所以很多我们关心的问题,DNA 研究并不能给出一个完美的答案,所以能带来一点新的思考,就很不错了。

再一个就是关于「搞祖源研究有什么用」的问题。美国古人类 DNA 著名研究者,David Reich,在「人类起源的故事」这本书中,分享了自己去 MIT 做报告,被学生笑着问「为什么会有人给你钱做这些事情」的愤懑,认为搞清楚我们是谁,对人类演化史的好奇心,当然是非常重要的。

再回到我自己,虽然做了一些探索,其实并没有特别感兴趣,并且认为这是一种「年纪大」的体现。但是这次,也许是我年龄确实增长了,我开始思考,为何要做这件事。

对人类祖源的兴趣,可能不仅仅是满足好奇心,再往深走,我们期待与过去,与世界在时间维度上,建立更深的联结,那些早已远去的哭声和歌唱,在某种程度上,以 DNA 的形式,凝结在我们体内。而这种程度的联结,给人带来的满足感,是很多其他事情都无法比拟的,这里面有时间的巨大力量。

时间的力量是,当你走过漫长时间,回头再看来时之路,原来已经走了这么多的路。

DNA 里,这世上的一切都与我有关。

如果想知道自己是否有尼安德特人的基因,可以去主基因报告为性状上新投票。

如果你也想了解一份祖源 DNA 解读长什么样?回复「示例报告」,查看祖源和其它近百个基因解读主题。

也想拥有一份超20万字「个人说明书」?各色DNA年底限时优惠中,现在下单,用2ml唾液发现「我是谁,我从哪里来」。

↓点戳下方海报,把好奇心小蓝盒带回家↓
优惠截至 12 月 29 日晚 24 点

再回到群体差异的话题,需要提醒的是,族群只是一个文化概念,很多在生物基础上并无本质差异。我们在关注差异的同时,更需提醒自己,人类的相同之处,远远大于差异所在。

当然最重要的,接下来生物工程师官山老师,还会针对全球多个族群,继续做探索,也希望能早日给大家更新祖源成分的新解读~(求别催,官老师进行中了)

拜!

参考研究

Nurk, S., Koren, S., Rhie, A., Rautiainen, M., Bzikadze, A. V., Mikheenko, A., Vollger, M. R., Altemose, N., Uralsky, L., Gershman, A., Aganezov, S., Hoyt, S. J., Diekhans, M., Logsdon, G. A., Alonge, M., Antonarakis, S. E., Borchers, M., Bouffard, G. G., Brooks, S. Y., … Phillippy, A. M. (2022). The complete sequence of a human genome. Science, 376(6588), 44–53.

Li, X., Wu, C., Lu, J., Chen, B., Li, Y., Yang, Y., Hu, S., & Li, J. (2020). Cardiovascular risk factors in China: A nationwide population-based cohort study. The Lancet Public Health, 5(12), e672–e681.

Zhang, X., Sun, A., & Ge, J. (2021). Origin and Spread of the ALDH2 Glu504Lys Allele. Phenomics, 1(5), 222–228.

Green, R. E., Krause, J., Briggs, A. W., Maricic, T., Stenzel, U., Kircher, M., Patterson, N., Li, H., Zhai, W., Fritz, M. H.-Y., Hansen, N. F., Durand, E. Y., Malaspinas, A.-S., Jensen, J. D., Marques-Bonet, T., Alkan, C., Prüfer, K., Meyer, M., Burbano, H. A., … Pääbo, S. (2010). A Draft Sequence of the Neandertal Genome. Science, 328(5979), 710–722.

Yang, M. A., Fan, X., Sun, B., Chen, C., Lang, J., Ko, Y.-C., Tsang, C., Chiu, H., Wang, T., Bao, Q., Wu, X., Hajdinjak, M., Ko, A. M.-S., Ding, M., Cao, P., Yang, R., Liu, F., Nickel, B., Dai, Q., … Fu, Q. (2020). Ancient DNA indicates human population shifts and admixture in northern and southern China. Science, 369(6501), 282–288.

Wang, C.-C., Yeh, H.-Y., Popov, A. N., Zhang, H.-Q., Matsumura, H., Sirak, K., Cheronet, O., Kovalev, A., Rohland, N., Kim, A. M., Mallick, S., Bernardos, R., Tumen, D., Zhao, J., Liu, Y.-C., Liu, J.-Y., Mah, M., Wang, K., Zhang, Z., … Reich, D. (2021). Genomic insights into the formation of human populations in East Asia. Nature, 591(7850), 413–419.