责编 | 酶美
转座元件 (TEs) 是指一类能够在基因组内移动的DNA序列,人类基因组中有近一半序列来源于转座元件。转座元件的插入和跳跃可以改变基因组遗传信息,是物种进化的重要原动力。尽管大部分转座元件已经丧失了“跳跃”的能力,但其可以通过影响染色质表观遗传修饰、转录因子结合、RNA编辑以及染色质构象等,对基因表达起着非常重要的调控作用 【1】 。单细胞转录组测序 (scRNA-seq) 是研究细胞命运状态的绝佳技术,近年来,更多的单细胞测序技术以及相应的生物信息学分析方法也在不断改进,总体的目标是扩展能捕获的信息及挖掘能代表生物学功能的潜在维度。然而,目前从scRNA-seq数据分析的工具包都只定量基因的表达,分析转座元件的表达还比较困难,缺乏相关研究需要的生物信息学分析的工具包,因而忽略了基因组占比如此之高的转座元件来源的信息。
2021年3月5日,中科院广州生物医药与健康研究院/生物岛实验室陈捷凯课题组、南方科技大学Andrew Hutchins课题组合作在Nature Communications杂志在线发表了题为“Identifying transposable element expression dynamics and heterogeneity during development at the single-cell level with a processing pipeline scTE”的研究论文。该研究开发了从scRNA-seq数据中分析转座元件表达的生物新信息学工具包——scTE,利用scTE发现了小鼠胚胎发育、人类疾病等过程中一系列特异性表达的转座元件,最后,研究者还将scTE应用到单细胞ATAC-seq(scATAC-seq)数据分析,发现利用转座元件染色质开放信息能够较好的区分不同细胞类型。
与常规基因不同,同一类转座元件通常在基因组中具有成千上万个不同的拷贝,并且每个拷贝间的序列高度相似,这也是转座元件通常难以做到单位点准确定量的主要原因。为解决这一问题,同时由于常规scRNA-seq只有较短的测序读长的因素,研究者采用了针对转座元件家族层面的定量策略,这一策略忽略了基因组位置信息,提高了转座元件的定量准确性。利用该策略研究团队开发了易于使用的集成工具包scTE,scTE能够同时定量基因和转座元件的表达。
为检测scTE定量对基因表达的影响,研究者将scTE与目前单细胞定量中最常使用的Cell Ranger、STARsolo进行了比较,通过分析小鼠胚胎干细胞 (mESCs) 和小鼠胚胎成纤维细胞 (MEF) scRNA-seq数据,发现scTE对基因的定量结果与Cell Range、STARsolo高度一致 (Pearson > 0.95) ,说明scTE对基因的定量无明显偏差。
正常体外下培养的小鼠胚胎干细胞中,会存在少部分 (~1%) 特异性高表达转座元件MERVL的2细胞期样的细胞 (2C-like细胞) 【2】 。为验证scTE对转座元件定量的准确性,研究者利用scTE定量了mESC中MERVL表达,准确地重现了mESC中稀少的2C-like细胞。同时,通过scTE验证了人多能性相关转座元件HERVH在人胚胎干细胞往心肌分化过程中表达不断下降,说明scTE能够精确定量转座元件的表达。
利用scTE,研究者团队分析了人胚胎干细胞往心肌细胞分化、小鼠早期胚胎发育、20种不同小鼠成体器官以及小鼠体细胞重编程scRNA-seq数据,发现了一系列细胞命运相关的转座元件,比如在神经细胞、免疫细胞、心肌细胞、肝细胞、胰岛细胞等中都发现存在细胞类型特异性表达的转座元件。此外,研究团队还分析了阿尔兹海默症、二型糖尿病、胶质母细胞瘤样品的scRNA-seq数据,发现在疾病状态下部分转座元件特异性高表达,提示这些转座元件的表达可能与疾病的发生发展有关。
scATAC-seq技术的开发,让获得“高分辨率”的单细胞精度的染色质开放图谱变为可能。scATAC-seq数据存在几个特点,一,高维度,每个细胞中可以检测到可能开放的区域可以高达几十万个,二,数据的稀疏性,由于技术原因,导致大量开放的区域没有检测到信号。由于以上原因,目前对scATAC-seq数据的生物信息学分析还存在比较大的挑战。研究团队提出转座元件多拷贝的特点,通过累积转座元件信号可以去除数据的稀疏性,降低了数据的维度,或许能够有效弥补scATAC-seq数据以上两个挑战。研究者利用scTE,发现仅利用转座元件信号,能够将scATAC-seq数据中主要细胞类型区分开来,提示转座元件信息对scATA-seq等单细胞基因组数据的分析是很好的补充。
通常认为转座元件主要在胚胎发育早期或细胞受到表观遗传药物干扰时才会激活,在成体细胞中通常通过DNA甲基化等机制被沉默。通过scTE的研究,可以发现发育过程中存在大量与细胞命运转化过程高度相关的转座元件家族,提示转座元件参与发育相关的功能。病理情况下特定细胞的TE表达也会发生变化,可能具有病理机制或标志物的研究前景。转座元件最近被发现作为增强子参与胚胎发育和免疫应答,如小鼠中转座元件RLTR13D5作为增强子参与胎盘发育 【3】 ,灵长类特有的转座元件MER41可以作为增强子快速响应干扰素诱导的免疫应答 【4】 ,因此结合scATAC-seq对转座元件区域的数据信息进行挖掘是有必要的。综上,scTE能够帮助研究者将研究对象扩展到基因之外的大量基因组信息,软件的使用详情可访问实验室的Github网站:https://github.com/JiekaiLab/scTE
生物岛实验室何江平副研究员为本论文的第一作者,中科院广州生物医药与健康研究院/生物岛实验室陈捷凯研究员、南方科技大学Andrew Hutchins研究员为本论文共同通讯作者。
原文链接:
https://www.nature.com/articles/s41467-021-21808-x
转载须知
本文著作权归文章作者所有,未经允许禁止转载,作者拥有所有法定权利,违者必究。
制版人:琪酱
参考文献
1Chuong, E. B., Elde, N. C. & Feschotte, C. Regulatory activities of transposable elements: from conflicts to benefits.Nat Rev Genet18, 71-86, doi:10.1038/nrg.2016.139 (2017).
2Macfarlan, T. S. et al. Embryonic stem cell potency fluctuates with endogenous retrovirus activity.Nature487, 57-63, doi:10.1038/nature11244 (2012).
3Chuong, E. B., Rumi, M. A., Soares, M. J. & Baker, J. C. Endogenous retroviruses function as species-specific enhancer elements in the placenta.Nat Genet45, 325-329, doi:10.1038/ng.2553 (2013).
4Chuong, E. B., Elde, N. C. & Feschotte, C. Regulatory evolution of innate immunity through co-option of endogenous retroviruses.Science(New York, N.Y.) 351, 1083-1087, doi:10.1126/science.aad5497 (2016).
热门跟贴