点评 | 李蕴(北卡罗来纳大学)、张金阳/赵方庆(中科院北京生命科学研究院)、袁国华(中科院上海营养健康所)/杨力(复旦大学)、张学工(清华大学)
责编 | 兮
基因的转录在生物学中心法则中处于承上启下的重要环节,与相对“静态”的基因组相比,转录组在不同组织/器官/发育阶段均有显著变化,是细胞完成相应生理/病理功能的重要生物学基础。细胞是构成生命的基础单元,迅速发展的单细胞测序技术为在单细胞层面研究细胞功能及其背后的基因调控机制提供了重要的技术手段【1】,单细胞测序可用于检测多种不同的组学种类,包括转录组、染色质开放组、DNA甲基化组、组蛋白修饰组等等,对不同组学技术产生的数据进行整合分析有助于更全面地刻画细胞内的基因调控状态、揭示调控机制。然而,与传统的bulk数据相比,单细胞数据具有规模大 (百万级细胞)、噪声高 (dropout, batch effect)、异构性强等特点,如何通过开发新的计算方法实现对这些宝贵数据的有效利用已成为当今生物信息学领域关注的重点与热点。
2022年5月2日,北京大学/昌平实验室高歌课题组在Nature Biotechnology上发表了文章Multi-omics single-cell data integration and regulatory inference with graph-linked embedding,提出了基于图耦联策略的深度学习方法GLUE,实现了对百万级单细胞多组学数据的无监督精准整合与调控推断。
单细胞多组学数据整合的一大挑战在于不同组学的特征空间存在差异,例如转录组的特征是基因,而染色质开放组的特征是染色质开放区段,不同特征空间的细胞缺乏可比性。为了解决这一问题,GLUE提出了全新的图耦联(graph-linking)策略,将组学特征间的先验调控关系表示成引导图(guidance graph)的形式,其中节点为组学特征,边为组学特征间的先验调控关系。模型采用变分图自编码器(Variational Graph AutoEncoder, VGAE)学习组学特征的低维表示作为组学数据的解码器权重,从而将不同组学的低维隐空间表示关联起来并确保其“语义一致性”;在此基础上,GLUE进一步引入对抗学习以消除不同组学降维表示之间的系统性差异(图 1)。
图 1 GLUE模型的结构示意图。
通过引入组学特异的变分自编码器(Variational AutoEncoder, VAE)组件堆叠,GLUE支持对多组学非配对(unpaired)数据的无监督整合。作者成功用其整合了小鼠大脑上皮的单细胞转录组【2】、染色质开放组【3】和DNA甲基化组【4】,并显示了三组学整合可以有效地改善细胞的类型注释。于此同时,GLUE在设计上引入了模块化思想,可容易地进一步扩充以支持如单细胞Ribo-seq、空间转录组等更多组学类型数据整合。
除了细胞层面的跨组学匹配,由于GLUE在先验调控图中直接对调控关系进行了建模,还可综合先验调控信息与多组学数据统计相关性,实现可靠的转录调控推断,作者以外周血为例,应用GLUE整合了pcHi-C物理相互作用【5】、eQTL突变表型关联【6】、以及单细胞转录组与染色质开放组数据【7】,并证明GLUE可有效整合多种调控证据以得到精准的调控关联。值得指出的是,GLUE引导图所需的先验调控关系无需特别精确 (以单细胞转录组与染色质开放组数据整合为例,只要将染色质开放区段与临近基因相连就可以构建有效的引导图),系统的评测显示GLUE多组学整合与调控推断均具有较强的鲁棒性。
GLUE具有良好的计算可扩展性 (scalability),可以有效处理百万级单细胞组学数据。通过对已发表的500万单细胞人类胎儿单细胞转录组【8】和染色质开放组【9】图谱数据进行分析,GLUE首次实现了全图谱级别的无监督整合,并基于整合后的数据进一步改进了细胞类型标注(图 2)。
图 2 GLUE首次实现了图谱级超大规模单细胞多组学数据的准确整合。与同类工具相比,GLUE在细胞分辨率与叠合精度方面均具有显著的优势。
GLUE全部实现代码已经开源发布(https://github.com/gao-lab/GLUE),可通过PyPI和Anaconda平台直接安装使用。
北京大学生命科学学院博士生曹智杰为该论文第一作者,北京大学/昌平实验室高歌研究员为该论文通讯作者。
专家点评
李蕴(北卡罗来纳大学,本文章审稿人之一)
近年来,多层组学的技术突飞猛进,不仅数据类型逐渐多样化,而且数据量也与日俱增,呈指数增长。因此,严谨高效的多层组学整合分析方法的开发,在生物信息学和大数据领域日益受到重视。高歌课题组开发的GLUE方法,给我们提供了一种新的工具来分析高通量、多模态的大数据,能够精准、稳健、高效、可规模化地应用到多层组学大数据。GLUE采用了图耦联深度学习框架来实现多组学数据整合,并从单细胞数据做调控推断。GLUE的图耦联框架可以有效地把先验知识嵌合到模型里,提高统计效率和推断准确性。除了方法学意义上的优点,GLUE在应用意义上也是可圈可点的,尤其是以下三条:第一,GLUE的高效性:GLUE是同类方法中唯一可以同时分析上百万单细胞的方法。面对数据量的指数级增长, 算法的高效性很大程度上决定了方法实用性。第二,GLUE可以同时嵌入整合三种模态,而现有的方法基本都局限于整合两种模态。第三,开发团队在多个真实数据上做了系统严谨的方法评估,其结果对广大科研工作者的应用提供了很有价值的指导。
专家点评
张金阳、赵方庆(中国科学院北京生命科学研究院)
近年来随着单细胞测序技术的发展和应用,现已产生海量的单细胞转录组、染色质开放组、甲基化组等单细胞多组学测序数据【10,11】,为我们研究细胞中生物过程的动态变化提供了宝贵基础数据。然而不同研究产生的数据集往往具有较大异质性、且不同组学数据的特征存在较大差异,难以直接进行整合分析,目前仍然非常缺乏有效的单细胞多组学数据整合分析手段。此外,由于单细胞数据本身规模极大,这对于大规模整合分析工具的计算能力也提出了重要挑战。
最近,北京大学高歌课题组基于图耦联策略与变分图自编码器、对抗学习等模型,提出了全新的单细胞多组学数据整合分析工具GLUE (graph-linked unified embedding)。他们通过使用已知的多组学水平的调控关系作为先验网络,同时对多组学测序数据与基因调控图进行特征表示,在同一隐空间中实现了基因调控关系与多组学数据的准确整合。他们进一步利用SNARE-seq,SHARE-seq与10X Multiome等配对单细胞多组学数据集,对GLUE与其他常用的多组学整合工具进行了系统评测,发现GLUE在准确度及鲁棒性方面均具有极大优势,并且可以有效去除数据间的批次效应,实现多组学数据的高质量整合。尤其需要指出的是,当前大部分方法仅能对两种组学数据进行整合分析,而GLUE可以整合三种以上的组学数据类型,还可以根据贝叶斯推断的方法实现基因调控信息的预测。作者基于pcHi-C,eQTL等调控特征及scRNA-seq与scATAC-seq数据,对转录因子与基因间的调控关系进行了预测,并利用TRRUST数据库进行验证,说明GLUE可以实现基因调控网络的准确重构。最后,作者还使用了百万级别的scRNA-seq与scATAC-seq数据,充分展示了GLUE方法对大规模单细胞数据集的整合计算能力。
上述结果表明,GLUE方法通过整合基因调控网络图,不仅实现了超百万级别单细胞多组学数据的高效整合,还可以基于单细胞数据进行基因调控关系的准确预测。因此,随着基因调控关系的研究深入以及后续大量测序数据的产生,GLUE模型的准确度与可解释性会进一步提升。该方法作为一种通用分析框架,在单细胞多组学数据整合分析方面将有着重要的应用价值。
专家点评
袁国华(中国科学院上海营养与健康研究所)、杨力(复旦大学生物医学研究院/复旦大学儿科医院)
单细胞测序技术在解析细胞多样性的研究中发挥着至关重要的作用。不同于经典的多细胞(bulk cell)水平测序,单细胞测序可以在单个细胞水平绘制基因结构或基因表达状态等图谱,进而在多个模态揭示细胞间的异质性。近年来,针对不同组学的单细胞测序研究风起云涌,包括单细胞转录组(scRNA-seq)、染色质开放组(scATAC-seq)及DNA甲基化组(snmC-seq)等,为相关不同维度的单细胞研究提供了海量大数据基础。通过构建相应的计算分析流程方法(如处理scRNA-seq数据的Seurat、处理scATAC-seq数据的SnapATAC等),科研工作者在多个组学维度揭示了单细胞间的异质性,发现了新的细胞类型,并据此建立了更为精准的细胞分型分类。然而,由于不同组学水平的单细胞研究在其研究对象上存在着维度差异,这种天然的鸿沟为不同组学单细胞数据的比较与整合带来了挑战。现有的一些整合计算分析方法会造成信息丢失并且受限于数据规模,很难将不同组学水平的单细胞测序数据进行有效整合和综合利用。因此,亟需开发新的计算方法来高效地整合多维组学单细胞数据开展比较分析和系统研究,这是生物信息学领域的前沿热点之一,也是难点挑战之一。
为了突破这一挑战,来自于北京大学/昌平实验室的高歌团队开发了基于图耦联策略的深度学习模型GLUE,用以开展多模态单细胞数据的整合分析。GLUE模型利用先验知识构建引导图(guidance graph)对多组学特征之间的调控关系进行刻画,结合变分自编码器(VAE)针对不同组学的单细胞数据进行无监督学习实现非线性降维,并进而利用这种低维表示构建跨组学特征关联,实现多组学非配对数据的高效整合以及调控关系的精准推断。基于已公开的配对(金标准)和非配对scRNA-seq 及 scATAC-seq数据集,高歌团队将GLUE和其它多组学单细胞数据整合方法进行了系统地比较,发现GLUE能够更加有效地完成数据整合和调控推断,并且具有较强的鲁棒性。研究者还利用GLUE成功完成了对小鼠大脑上皮的scRNA-seq 、snmC-seq 和scATAC-seq 三种组学单细胞数据的整合,相较于目前仅有的类似数据整合方法iNMF,GLUE的数据整合结果具有更高的细胞类型分辨率和表观遗传相关性。同时,研究者还利用GLUE整合了10X外周血单核细胞的scRNA-seq与scATAC-seq数据,结合pcHi-C物理相互作用和eQTL突变表型关联,进一步证明了GLUE可以准确地完成多种调控关联的推断。最后,研究者将GLUE用于人类胎儿单细胞转录组和染色质开放组图谱数据的整合,首次实现了超百万单细胞的全图谱级多维组学数据整合,体现了GLUE超凡的扩展性。
深度学习现已广泛应用于生物医学大数据的分析研究中,在例如图像处理、蛋白质结构预测、药物合成等不同方向都取得了显著的应用成果。经典的卷积神经网络和循环神经网络在提取欧氏空间数据(如文本、序列、图像等)的特征方面具有非常好的效果,但难以有效地处理非欧空间数据(如人际关系图、分子结构图、基因调控图等),其需要图神经网络方法进行解析。多组学单细胞数据之间所蕴含的复杂调控关系更倾向于用非欧空间数据、而不是欧氏空间数据来表征,意味着传统的卷积神经网络和循环神经网络等深度学习方法难以胜任相关多模态数据整合分析。高歌团队创建的GLUE流程,创新性地采用了图神经网络的方法,基于图耦联的策略将多组学特征之间的调控关系转化为具有复杂联系和对象间相互依赖的引导图,进一步用变分自编码器将各组学的低维表示关联起来,高效地整合了多组学非配对的单细胞数据,这是一个非常新颖的有益尝试。GLUE在方法学上的创新体现在:1)利用图耦联将多维组学特征先验调控关系表示成引导图形式;2)采用变分图自编码器进行组学特征学习及跨组学关联;3)引入多模块思想可实现更多模态单细胞组学数据的扩充整合。这些保证了GLUE在跨组学单细胞组学数据整合分析中的准确性、高效性和扩展性。
综上,高歌团队开发的GLUE方法,可实现高效且精准的多组学单细胞数据整合及调控推断。GLUE具有更高的准确性、鲁棒性以及计算可扩展性。考虑到多组学单细胞测序数据的爆炸性增长,GLUE将为多维单细胞数据整合分析及相关创新科学发现提供新的生物信息学理论基础和方法体系,也为其它多模态的数据整合分析提供了新的思路和探索。
专家点评
张学工(清华大学自动化系教授、北京信息科学与技术国家研究中心生物信息学部主任,ISCB Fellow)
单细胞组学技术飞速发展,单细胞组学类型越来越丰富,单细胞多组学数据整合问题已成为全面解码生命规律中的重要一环。
日前,高歌课题组综合运用图学习与生成-对抗学习模型,提出了单细胞多组学数据整合与调控推断新方法GLUE,能有效在数学空间中把多种组学数据“粘合”在一起,实现了对百万级非配对单细胞组学数据的无监督整合与同步调控推断。论文中上百万级别的细胞图谱整合、三组学整合、以及同步调控推断等应用实例,让我们看到了机器学习方法在单细胞生物信息学中的巨大潜力。特别值得一提的是,论文提出的图耦联嵌入策略,将跨组学整合与调控关联推断这两个看似独立的任务融合于同一数学框架,首次实现了利用调控关系建模以解决无监督多组学整合问题,在显著提升效能的同时改进了模型与结果的可解释性。
作为一篇生物信息学理论与方法性文章,该工作在Nature Biotechnology发表,是我国生物信息学界的一个新突破。该工作在理性模型设计、原创性方法实现、代表性应用实例等方面均可圈可点,是单细胞生物学和生物信息学领域的标志性成果,也是近年来我国生物信息学迅猛发展的一个杰出代表。同时,该工作也把单细胞多组学研究推上了一个新台阶,在此基础上,人们未来可以更深入研究如何更好发掘利用各种组学数据的共性和差异性信息,解码生命现象中的更深层规律。
https://doi.org/10.1038/s41587-022-01284-4
制版人:十一
参考文献
1. Stuart, T. & Satija, R. Integrative single-cell analysis.Nat. Rev. Genet.20, 257–272 (2019).
2. Saunders, A. et al. Molecular diversity and specializations among the cells of the adult mouse brain.Cell174, 1015–1030.e1016 (2018).
3. 10x Genomics. Fresh cortex from adult mouse brain (v1), single cell ATAC demonstration data by Cell Ranger 1.1.0. https://support.10xgenomics.com/single-cell-atac/datasets/1.1.0/atac_v1_adult_brain_fresh_5k (2019).
4. Luo, C. et al. Single-cell methylomes identify neuronal subtypes and regulatory elements in mammalian cortex.Science357, 600–604 (2017).
5. Javierre, B.M. et al. Lineage-specific genome architecture links enhancers and non-coding disease variants to target gene promoters.Cell167, 1369–1384.e1319 (2016).
6. Aguet, F. et al. Genetic effects on gene expression across human tissues.Nature550, 204–213 (2017).
7. 10x Genomics. PBMC from a healthy donor, single cell multiome ATAC gene expression demonstration data by Cell Ranger ARC 1.0.0. https://support.10xgenomics.com/single-cell-multiome-atac-gex/datasets/1.0.0/pbmc_granulocyte_sorted_10k (2020).
8. Cao, J. et al. A human cell atlas of fetal gene expression.Science370, eaba7721 (2020).
9. Domcke, S. et al. A human cell atlas of fetal chromatin accessibility.Science370, eaba7612 (2020).
10. Chen, S., Lake, B. B. & Zhang, K. High-throughput sequencing of the transcriptome and chromatin accessibility in the same cell.Nat Biotechnol37, 1452-1457, doi:10.1038/s41587-019-0290-0 (2019).
11. Ma, S. et al. Chromatin Potential Identified by Shared Single-Cell Profiling of RNA and Chromatin.Cell183, 1103-1116 e1120, doi:10.1016/j.cell.2020.09.056 (2020).
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
热门跟贴