2022 年 5 月,网飞出品了一部名为《我们的父亲》(Our Father)的纪录片。

图源网飞纪录片《Our Father》

这部纪录片,讲述了一名恶魔医生借人工授精之便,让数十名女性,在不知情的情况下,为其生下大量后代的故事。

起初,没有人发现这是一场灾难;而故事,要从一位名叫雅各芭·巴拉德的女孩说起。

雅各芭从小就意识到,自己跟父母的不同——金发碧眼的她,却有着黑发黑眼的父母;这让她一度以为自己是被收养的。

雅各芭·巴拉德

直到 10 岁那年,父母才告诉她,自己是通过人工授精才生下的她。

几年后,出于对自己「生父」的好奇、渴望像其他同学一样有兄弟姐妹,她找到了当时帮母亲做手术的医生——唐纳德·克莱恩(Donald Cline),并告诉了他自己的想法。

可惜,对方只是直截了当地说:你无法获得这些信息,你母亲的档案已经销毁了。

于是,雅各芭只好就此作罢。

直到 2014 年,她偶然间看到了基因检测的广告,这才让她的「寻亲之旅」有了转机。

但估计连她自己也不会想到,一次偶然的好奇,竟意外揭开了一场深藏数十年的医疗丑闻。

图源网飞纪录片《Our Father》

按照当地法规,同一位捐精者的「小蝌蚪」不会使用超过三次;但她的基因检测结果却显示,她有七个兄弟姐妹!

也就是说,唐纳德医生当年为前来就诊的女性进行人工授精所用的「小蝌蚪」,都是来自同一个人。

最终,唐纳德被告上了法庭。

这位享誉盛名的妇科医生被指控,在 1974 年至 1987 年间,用自己的精液,让前来就诊的女性为自己生下数十名「后代」。

唐纳德旧照及其相关新闻

而更可怕的是,在案件引起大众关注后,人们通过基因检测,发现了越来越多唐纳德的「子女」——截止到纪录片拍摄完毕前,已经确定了至少 94 人。

并且,他大部分的「子女们」,都生活在方圆几十公里之内;甚至有些人就住在相邻的街区,彼此之间的生活本来就有交集,或关系亲密。

发现生父是同一个人的兄弟姐妹们

万一真的发生了「有情人终成兄妹」的事情,后果可想而知。

那么,我们国内有没有类似的基因检测技术呢?有的。

其实,国内的 DTC 基因检测,也可以进行亲缘匹配。比如我们微基因WeGene(口水厂)就有「基因关系」的功能,可以帮你匹配亲缘关系相近的人。

图源微基因「基因关系」功能

所以,像口水厂这样先进的基因检测公司(没毛病),是怎样从上百万用户中,匹配到你的「亲戚」的呢?

一般传统的亲缘鉴定,是用二十多个常染色体短串联重复序列(STR)的方法。

短串联重复序列(STR)示意图

这种方法主要是用来做亲子鉴定,比如判断来两个样本是不是父母和子女的关系;面对复杂一点的亲缘关系,就需要进行额外的实验了。

不过,雅各芭做的检测,是用的是一种更「优雅」的方式。

众所周知,通常来说,每个人都有 23 对染色体;而每一对染色体中,一条来自父亲、另一条来自母亲。

由于人在生殖过程中的同源重组,我们的常染色体并非简单地从自双亲各遗传一条染色体;而是父母各自的一对染色体,随机重组成一个新的染色体,然后再遗传给我们。

哪怕是远亲,即使在经历了多代染色体重组,他们的基因变异多态性,也仍会有相似的地方。

所以,我们可以利用这种不同个体在全基因组范围内,具有基因相似性的地方,也就是共祖片段(identity-by-descent, IBD)来推断亲缘关系。

简单来说,IBD 就是不同个体的常染色体中,来自相同祖先的相同基因片段。

找到 IBD 片段,我们就可以根据基因组同源重组的热点分布、位点之间的遗传距离、人群的基因组特点等信息来建立概率模型,进而判断不同个体间的亲缘关系。

越是近亲,他们共享的 IBD 片段就越多、越长;反之,则因为多次同源重组,而导致共享 IBD 片段变短、变少。

而帮雅各芭做商用基因检测的公司,使用的是「全基因组基因分型」技术——这是一种能够做到一次性对人体中几万、甚至几十万以上数量级的单核苷酸多态性(SNPs)位点进行检测的技术。

通常检查出来的,是像这样只检测出基因组上存在的变异,但是一般无法得知变异序列是来自父系的染色体还是母系的染色体。

所以,我们还需要将基因检测结果进行 Phasing,也就是「基因定相」,将样本的基因序列还原成可以直接区分父源和母源的状态。

Phasing 的方法主要有三种,分别是家系分型(Related individuals Phasing)、群体 LD 分型(LD Phasing)和物理分型(Physical Phasing)。

其中,最常用的就是群体 LD 分型。

这种方法,是指利用群体中大量无血缘关系的个体 ,依据连锁不平衡(Linkage disequilibrium, LD)遗传原理和相关数学模型,推断群体中每个个体的单倍体基因型。

例如,利用参考单倍型库中的单倍型来指导 Phasing;如 2002-2007 年的国际人类基因组单体型图谱计划(International HapMap Project)、2008-2015 年的千人基因组计划(1000 Genomes Project)等等。

通过构建基于隐马尔可夫模型(HMM)等的 Phasing 算法,依据测序数据或者芯片数据,反推出每个个体最有可能的单倍体

完成 Phasing 后,就可以利用 GERMLINE、Refined-IBD 等各类 IBD 算法和软件,推断出 IBD 了。

还有一些算法不需要用 phasing 的数据,比如 IBIS 等;但当然,由于遗传过程中的随机性,这些推断也不是 100% 准确的。

隔了 5、6 代的人,IBD 的分布就是很广的一个范围了,可能没有,也可能还保留很长几段,所以一般在亲缘鉴定的结果上,都会有个概率给大家参考。

看到这里,相信大家对亲缘鉴定已经有了一定的了解,并且会担心随之而来的隐私问题。

所以,基因检测对用户隐私的保护,该如何保证?

18 年 11 月 23 日,美国《科学》杂志上,发表了黑泽尔等人的观点。

他们认为,一方面,应该建立全民性法医数据库,来帮助破获和威慑谋杀、强奸、抢劫、盗窃等严重犯罪。

另一方面,由于法医数据库只需要遗传标记信息的一小部分,就能用来识别个体;所以,这种公共数据应该使用短串联重复序列(Short Tandem Repeat, STR),保证在能让亲缘鉴定发挥作用的同时,又能避免敏感信息的泄漏。

当然,相关规范的制定,或许也可以参考我们口水厂的「基因关系」:用户在使用前,需要先确认风险后再授权;并且授权的用户也可以随时关闭功能,甚至是直接删除自己的数据。

图源微基因「基因关系」功能

看到这里,对于亲缘鉴定技术,你认为在获取数据库里的遗传信息时,应该有哪些规范和限制呢?36 也期待你在评论区发表自己的看法~