打开网易新闻 查看精彩图片

单细胞测序数据集和考古发掘现场之间存在一种有趣的对偶:从某种意义上来说,它们都是关于历史的压缩快照。化石只有在与相关地层相关联时才具有完全意义,考古发现只有在精确定年后才能解释历史。而现在,研究人员发现了一种隐含在单细胞测序数据中的时间信息:时钟样染色质可及性。利用这种细胞内在的“分子时钟”,我们可以重构细胞群体的演化历史。

单细胞有丝分裂年龄就像一个“时钟计时器”:与其后代相比,祖先细胞的有丝分裂年龄较低;与晚近发生的细胞相比,古早发生的细胞表现出较低的有丝分裂年龄。假如存在一种单细胞有丝分裂年龄的测量工具,它将能为单细胞测序数据集提供细胞出生序列的精确时间参考,极大地帮助我们理解复杂的个体发育轨迹以及疾病发生发展进程。然而,对单细胞数据进行时间序列分析通常需要采用特别的实验手段,如使用化学标记、高深度体细胞突变测序、谱系特异性反向遗传标记、多时点采样、单细胞甲基化测序等。为了从任意高通量单细胞测序数据集中重建精确的发育轨迹,需要找到嵌入在数据中的、用于报告细胞年龄的内在生物标志物,从而进行细胞年龄推断。

2024年5月9日,优乐复生张翼博士与武汉大学王行环教授等在Nature Biotechnology期刊发表了题为:Tracking single cell evolution using clock-like chromatin accessibility loci 的研究论文。

该研究建立了一种基于时钟位点染色质可及性推断单细胞复制年龄的生物信息学方法——EpiTrace,实现了对单细胞染色质可及性(ATAC-seq)数据集的细胞年龄推断,为单细胞测序数据集提供了时间参考系。

打开网易新闻 查看精彩图片

已有研究表明,特定基因组区域中的CpG位点上的DNA甲基化水平随着个体年龄变化而匀速改变,因为这些特定基因组区域的DNA甲基化变化表现出类似于“时钟计时器”的行为,因此将这类CpG位点被称为时钟样差异甲基化位点(Clock-like differential methylated loci,ClockDML)。鉴于DNA甲基化与染色质可及性密切相关,作者提出了一个假设,年龄依赖性 DNA 甲基化要么是由ClockDML上的染色质可及性变化引起的,要么是它能直接导致染色质可及性变化。无论哪种说法成立,这类位点上的染色质可及性均与年龄存在相关。那么,从单细胞ATAC-seq(scATAC)数据中可能可以推断细胞有丝分裂年龄。

研究团队检验了ClockDML上的染色质可及性与细胞分裂次数(细胞年龄)之间的相关关系。实验证据和数据分析显示,ClockDML上的染色质可及性是良好的细胞年龄标记物,随着细胞分裂次数增加,全基因组范围内ClockDML上的染色质可及性异质性逐渐降低。在单细胞水平上,ClockDML上的染色质可及性总量随着细胞年龄递增而线性增加。实验证明,在这类基因组位点上,年龄依赖的染色质可及性变化不依赖于DNA甲基化变化。这一现象在进化中高度保守,即使在DNA甲基化水平极低的远缘物种基因组中的时钟同源位点上,仍然存在年龄依赖的染色质可及性变化。研究团队将这类基因组位点命名为时钟位点(clock-like loci)。

由于单细胞ATAC-seq(scATAC)数据非常稀疏,而已知的时钟位点数量又相对较少,因此覆盖已知时钟位点的测序片段极少,限制了细胞年龄推断的信噪比。为了克服这个问题,作者开发了EpiTrace计算框架。EpiTrace使用表型相似细胞的信息来补充单细胞测序量不足的缺陷,利用迭代算法拓展可用的时钟位点。作者将EpiTrace应用于公开可用的scATAC数据,验证了EpiTrace的适用性。在胚胎发育ATAC数据集中,EpiTrace发现细胞年龄在ZGA阶段被重置到最低,接着逐步上升。与此相反,在iPSC诱导过程中,EpiTrace推断的细胞年龄随着诱导进展逐步下降。在分时点采集的小鼠、斑马鱼和果蝇数据集上,EpiTrace推断的样本采样时间高度相关于真实的采样时间。

打开网易新闻 查看精彩图片

图1: (a) 使用时钟样差异甲基化位点(ClockDML)上的染色质可及性(ChrAcc)进行细胞有丝分裂年龄追踪的潜在表观遗传机制示意图。(b) 分别利用细胞干性(CytoTRACE)或是RNA速率推断(RNA velocity),均只能得到违反生物学已知常识的单细胞演化轨迹:神经元细胞(GluN)向中间祖细胞(nIPC)变化。而利用EpiTrace进行细胞年龄推断的结果,可以得到正确的单细胞演化轨迹。

EpiTrace方法与基于DNA甲基化方法估算的细胞生物学年龄高度一致。同时,EpiTrace方法与基于RNA速率、突变追踪、多时点采样等技术之间具有良好的互补性。研究团队将EpiTrace与线粒体突变追踪、多时点采样方法相结合,发现造血干细胞克隆的年龄与其未来增殖潜力之间存在很强的负相关性。这一结果为海弗利克极限学说(普通正常细胞只能分裂有限次)提供了实验证据。在另一个实验中,研究团队从一个单独的胎儿大脑scATAC数据集中对细胞年龄进行了分析,利用时钟位点相似性方法重建了皮层谷氨酸能神经元群体发育的谱系树,不仅验证了新皮层由内至外的发育模式,还发现了脑回特异表达的基因NR2F1的活性差异可能决定神经元祖细胞发育的不同时序,为NR2F1突变导致的遗传性多脑回综合征提供了机制解释。

此外,研究团队还将EpiTrace应用到免疫治疗相关T细胞数据集、人肾单细胞数据集、胶质母细胞瘤数据集等不同的应用场景中,展示了时间定序方法可以从已有的scATAC数据集中揭示隐藏的生物学现象,其中部分具有一定的潜在临床意义。

打开网易新闻 查看精彩图片

图2:造血干细胞年龄决定其增殖潜力。(左)年轻造血干细胞克隆在体外连续培养中逐渐替代年老克隆。(右)造血干细胞克隆的当下表观遗传学年龄与其增殖潜力(未来后代数量对数)呈线性负相关。

综上所述,该研究在ClockDML上发现了与有丝分裂相关的,细胞年龄依赖的染色体可及性,是一种良好的细胞年龄标记物,开发了用该标记物来追踪单细胞年龄的计算方法EpiTrace。通过多个验证实验,表明EpiTrace应用到不同物种、不同细胞类型、不同技术平台的scATAC数据集中,在仅利用人类外周血单核细胞时钟位点信息作为参考的情况下,均能准确地推断单细胞年龄,描绘细胞发育轨迹。此外,单细胞群之间的时钟位点上染色质可及性的相似性还可以作为系统发育分析的距离度量。通过比较研究,发现EpiTrace方法与其它计算生物学工具相辅相成,可高精度、高功效的预测细胞发育轨迹。EpiTrace将成为单细胞研究的有力工具,用于研究细胞发育演化历史和生物衰老。

Nature Biotechnology 期刊同期还配发了题为:Decoding single cell replicational age from scATAC data 的专栏评述,汇聚本文审稿人之一加州大学圣地亚哥分校任兵教授和Nature Biotechnology编辑团队对这项研究成果的评价。

打开网易新闻 查看精彩图片

值得一提的是,EpiTrace全部实现代码(https://github.com/MagpiePKU/EpiTrace)及用户手册(https://epitrace.readthedocs.io)已经开源发布。

该研究依托北京优乐复生、武汉大学/湖北省重点实验室及北京大学-清华大学生命联合中心超算平台开展工作。优乐复生张翼博士与武汉大学中南医院王行环教授为该论文通讯作者,肖宇博士、金婉博士、鞠林高博士、付杰博士为该论文共同第一作者。北京大学-清华大学生命联合中心超算平台陈芳进博士及武汉大学/湖北省重点实验室的王刚博士、钱开宇博士和科研助理余梦雪为本研究作出了重要贡献。NIEHS李晓玲研究员、北京大学/昌平实验室高歌教授、中山大学杨建荣教授、广州实验室陈雪鹏研究员、中国科学院北京基因组研究所杜政霖研究员、勃林格殷格翰公司叶俊青博士、UBS刘扬阳博士、Retro Biosciences Alex Trapp博士、北京生命科学研究所蒋辉研究员、北京大学/首都医科大学饶毅教授等专家学者对本项目作出重要的指导和帮助。该研究得到了国家自然科学基金、中央高校基本科研基金、武汉大学中南医院科研基金的支持。

https://www.nature.com/articles/s41587-024-02241-z

https://www.nature.com/articles/s41587-024-02256-6