打开网易新闻 查看精彩图片

在生殖医学领域,辅助生殖技术( A ssisted R eproductive T echnology , ART )经过半个世纪的发展已取得突破性进展,迄今 已助力全球超 1200 万名婴儿诞生。胚胎着床前遗传学检测( P reimplantation G enetic T esting , PGT )作为 ART 成功实施的重要保障,通过精准识别染色体非整倍体、单基因遗传病等遗传缺陷,为优质胚胎筛选提供了科学依据。然而,传统基于滋养层活检的 PGT 方法因其侵入性操作可能导致胚胎 损伤 ,这一技术瓶颈亟待突破。在此背景下,无创胚胎遗传检测技术( noninvasive PGT , niPGT )应运而生,其创新性地利用胚胎培养液 ( S pent E mbryo C ulture M edium , SECM ) 中游离 DNA ( cell-free DNA , cfDNA )作为检测靶标,实现了真正意义上的 " 零接 触 " 胚胎遗传分析,为生殖医学领 域带来了革命性的检测新范式 。然而 团队先前 的研究发现 培养液中 cfDNA 的来源复杂,约三分之一样本存在显著干扰因素, 这使得培养液中 cfDNA 的分子特征分析面临重大技术挑战。特别是如何从复杂的 DNA 混合物中准确解析 胚胎特异性 遗传信息,已成为提升 niPGT 检测精准度和临床应用价值的关键所在 。

近日,北京大学国际机器学习中心周沛劼团队联合北京大学第三医院陈依东团队 在Advanced Science上发表了题为Genetic deconvolution of embryonic and maternal cell-free DNA in spent culture medium of human preimplantation embryo through deep learning的 研究论文。该研究开发了一个算法DECENT( de ep c opy number variation r e co n s t ruction )用于解决上述挑战DECENT通过对培养液中游离DNA的甲基化与序列信息进行分析,使用深度学习算法提取特征,实现了胚胎培养液中母源和胚胎游离DNA精准分离和胚胎拷贝数变异( Copy Number V ariations , CNVs) 的重建 ,去除了培养液中的母源 干扰因素(1)。该方法有助于提升基于游离 DNA 无创胚胎 着床 前遗传学非整倍体检测的准确性,为其在生殖医学领域的临床应用奠定了基础。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图1DECENT算法流程图

1. 深度学习模型的选择与构建

在模型构建和训练阶段, 该 研究 依据 DNA 甲基化标记,随机挑选 6 个污染程度超过 95% 的 SECM 样本作为母源 cf DNA 的代表,以及 3 个无污染样本作为胚胎 cf DNA 的代表。构建了包含 1500 万读段的训练数据集,每个类别各贡献 750 万读段。其中, 1200 万读段被用于训练模型,而剩余的 300 万读段被保留作为验证集。所有读段均被处理成 相同的 碱基对的长度,提取序列信息和甲基化谱,作为模型输入。模型架构中,卷积神经网络用于提取序列特征,多头注意力机制用于捕获序列中的深层语义信息,双向长短期记忆层则用于增强对序列的分析能力。输出转换为 0 到 1 范围内的概率值,以此表示 cf DNA 来源于 母源 细胞的可能性,其中 1 代表完全源自母体细胞, 0 代表完全源自胚胎细胞 。

2. 深度学习模型计算培养液母源污染比例

该 研究 利 用构建的深度学习模型, 构建了极大后验估计算法用于 计 算培养液中母源污染的比例, 并 将使用深度学习计算出的比例与用甲基化水平推断的比例进行了比较,发现这两个比例之间存在强烈的相关性,表明了高度的一致性。尽管使用了不同的特征,结果的相似性 侧面反映 了构建的深度学习模型的鲁棒性。为了进一步验证模型的准确性, 该研究 通过生成一系列不同比例的颗粒细胞和胚胎混合物的合成数据集进行了模拟分析。模型推断的百分比与 DNA 混合物的输入百分比显示出强烈的相关性,进一步验证了模型的准确性。

3. 深度学习模型去除培养液母源污染和重建胚胎 拷贝数变异

为了评估深度学习模型重建胚胎 非整倍体变异 的能力, 该研究 首先 使 用计算机合成数据集来重建胚胎 非整倍体变异 。 该研究 随机挑选了 2 个母源污染比例为 0 的非整倍体培养液样本,代表完全来源于胚胎的 cfDNA ,和多个母源污染比例超过 95% 的整倍体培养液样本 , 代表完全来源于母体细胞的 cfDNA 。随后 , 该研究 用前两组数据,随机合成了母源污染比例为 60% 、 65% 、 70% 和 75% 的模拟数据,进行胚胎 非整倍体变异 计算。结果表明,随着母源污染的引入,原本存在于胚胎中的 非整倍体变异 ,特别是 -16 、 +18 变异和 XY 性别,被母源污染所掩盖。此外,随着污染比例的升高,变异的掩盖效应也随之增强。值得强调的是,即便在高达 60% 、 65% 、 70% 和 75% 的污染比例下,模型依然能够成功地识别至少一个变异,并且在污染比例低于 70% 时准确地鉴定性别。同样地, 该研究 随机挑选了另外一个无母源污染的非整倍体培养液样本重复上述操作。结果显示,模型依然能在 60% 、 65% 、 70% 和 75% 的污染比例下成功重建 -13 变异,并准确识别了性别。

该研究 之后在真实的临床数据上样本验证了该算法,研究发现在一个真实污染比例 6 4% 的样本成功恢复了 + 19 , XY 的非整倍体变异与性别,这与通过侵入性检测方法的结果保持一致。此外,研究在一个污染比例高达 8 9% 的样本中恢复了 - 18 的非整倍体变异,以及 在一个样本中恢复了 1 号染色体长臂缺失 ( -1q ) 的拷贝数变异 ,进一步说明了算法的鲁棒性。最后该研究提供了一个用于实际临床使用该算法的流程图。

4. 可解释性分析揭示了胚胎发育过程中的潜在甲基化特征

为了理解算法的生物学机理,该研究对 该 深度学习模型进行了可解释性分析。 基序( motif ) 特征可视化 结果表明 甲基化信息和序列信息都对模型的表现贡献了作用 。此外,进一步将这些基序比对到基因进而进行通路的富集分析,发现了一些与胚胎发育, 细胞命运 决定 等相关的通路。同时该研究可视化了算法读段每一个碱基对最后分类结果的重要性贡献,发现母源的序列可能更依赖于甲基化信息,这可能揭示了母源与胚胎序列甲基化水平的差异。

综上所述, 该 研究 提出的 DECENT 算法可以精准识别 SECM 中游离 DNA 甲基化数据中的 胚胎特异性 DNA 。 该方法有助于提升基于游离 DNA 无创胚胎 着床 前遗传学非整倍体检测的准确性 ,在 无创 胚胎 着床 前 胚胎 遗传 学 检测 中具有广阔的应用前景 。

北京大学 数学科学学院博士生张振毅 为该研究论文的第一作者。 北京大学国际机器学习中心周沛 劼 研究员 与北京大学第三医院陈依东副研究员 为该论文的共同通讯作者 。 该研究得到了 北京大学第三医院乔杰院士 和 北京大学 数学科学学院李铁军教授 的悉心指导与大力支持 ,并感谢北京大学高性能计算平台和生命科学中心计算平台的助力 。

论文链接:https://advanced.onlinelibrary.wiley.com/doi/full/10.1002/advs.202412660

乔杰教授,中国工程院院士。乔杰院士从遗传学、表观遗传学角度对人类早期胚胎发育调控机制进行深入研究。以通讯 / 第一 作者在 Lancet 、 JAMA 、 Science 、 Cell 、 Nature 等国际知名学术期刊上发表 SCI 论文 200 余篇。 陈依东,北京大学第三医院生殖中心副研究员。主要研究方向为生殖医学和遗传诊断。 以第一 / 通讯 作者在 Cell Stem Cell 、 The Journal of Clinical Investigation 、 Science Advances 、 Advanced Science 、 Cell Reports 等发表 SCI 论文 10 余 篇 。课题组长期招聘博士后,欢迎拥有实验或计算背景、且对 生殖医学 前沿方向有热情的青年才俊加盟。应聘理由 请注明 “ 博士后 申请 + 姓名 ” 。

简历投递( 有意者请将个人简历等材料发至 ):

https://jinshuju.net/f/ZqXwZt扫描二维码投递简历

制版人:十一

BioArt

Med

Plants

人才招聘

学术合作组织

(*排名不分先后)

打开网易新闻 查看精彩图片

战略合作伙伴

(*排名不分先后)

转载须知

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。