近日,复旦大学生物医学研究院杨力研究员团队在《科学通报》发表题为“转录组生物信息学: 从数据生成到分析框架”的评述文章,系统梳理转录组研究中高通量测序数据的获得与分析的核心原理,概述了机器学习技术在转录组研究的应用,为转录组生物信息学研究提供理论参考与技术启示。
文章以转录组的复杂性作为切入点,从转录产物和调控方式两个方面简要阐述了转录组的特征:一方面,除了mRNA外还存在多种类型的非编码RNA发挥不同的生物学功能;另一方面,RNA还经过不同的加工发挥生物学作用,包括但不限于选择性加尾、可变(反向)剪接、RNA编辑、RNA修饰等,展现了转录组在生命活动中的丰富功能。
文中根据转录组测序/分析技术特点进行系统性分类总结。转录组数据可以根据测序技术平台分为二代短读长测序和三代长读长测序技术,二代测序可以根据数据富集/分析目标的差异分为三类:1)转录本全序列富集;2)转录本目标片段富集;3)引入突变的转录本片段富集。另外得益于技术突破,二代测序数据的分辨率从细胞群均值提升到单细胞精度。
针对不同测序数据,文章概述了其技术原理和配套分析方法,并列举了在转录组研究中的多种应用场景。转录本全序列富集测序技术在RNA富集过程中不进行打断,理论上可以获取转录本全序列的测序数据,通过测序读序比对工具及定量分析方法,可应用于基因差异表达、可变(反向)剪接、新型RNA分子鉴定、新生转录本等方面的研究;转录本目标片段富集测序技术仅对目标片段进行富集建库,经过数据比对确定富集片段或者反转录停止位点坐标,实现区间精度或单碱基精度的数据分析,被广泛用于RNA可变加尾、RNA修饰、RNA-蛋白互作、RNA-RNA互作、RNA二级结构等多个转录组调控机制的研究;引入突变的转录本片段富集测序利用人为造成的碱基突变指示RNA上的修饰或特定位点结构,得益于序列比对工具的进步,研究者可以准确快速地识别突变位点,在单碱基精度实现对RNA-蛋白结合、RNA修饰、RNA结构等转录调控的研究。基于微流控液滴/微孔板技术的单细胞转录组测序将转录组研究从群体平均定量提升到单个细胞水平定量,为解析细胞异质性、构建发育轨迹、鉴定稀有细胞亚群提供有效技术手段,在肿瘤微环境、胚胎发育和免疫细胞分型等领域具有突破性应用。同时三代长读长测序技术克服了二代测序读序短、无法区分重复序列的缺点,实现无拼接的全长转录本捕获,实现单分子水平转录本研究,还可与单细胞测序技术结合,显著提升复杂转录组的解析精度。
图1 转录组研究相关测序技术及分析方法
除了传统的生物信息学方法,文章还概括了机器学习技术在转录组研究的发展历程,介绍了近年来快速发展的深度学习技术在生命科学研究中的应用实例,并讨论了训练数据对模型性能的影响和常见的数据处理手段。随后以发表的模型为例,从训练数据集的构建和编码方式两方面介绍了常见的数据处理方法,并展示数据的筛选以及编码方式对模型性能的影响,为研究者利用深度学习技术深入研究转录组提供一些启发。
最后,文章讨论了转录组研究的发展趋势。随着单细胞测序、空间转录组学和长读长测序技术的突破,研究从传统批量分析向多时空动态解析推进,也为转录组在临床疾病诊疗的应用提供了更多的技术手段。虽然目前深度学习技术在生物研究中得到了广泛应用,但有限的训练数据和模型可解释性也阻碍了模型在转录组研究的使用效果,这也是研究人员目前努力突破的方向。相信随着数据与算法的协同发展,未来转录组学研究有望建立转录组调控的精细时空网络模型,为理解复杂疾病发生机制和开发靶向治疗策略提供全新视角。
复旦大学生物医学研究院杨力研究员为本文的通讯作者,南芳博士为本文的第一作者。
文章信息
南芳, 马旭凯, 杨力, 转录组生物信息学: 从数据生成到分析框架, 科学通报, 2025, 70(15): 2356-2374
https://doi.org/10.1360/TB-2025-0160.
转载、投稿请留言
| 关注科学通报 | 了解科学前沿
热门跟贴