随着基因组数据的大量释放以及高质量组装的完成,实现编码基因的精准注释十分重要。基因的精准注释需要回答三个基本问题:转录组中RNA有多少种类,其序列信息如何,RNA上的调控元件包含哪些。mRNAs是具有编码蛋白质功能的一类RNA。单个基因转录后往往通过可变转录起始位点aTSS (alternative transcription start site)、可变剪切aS (alternative splicing)和可变多聚腺苷酸修饰位点 aPA (alternative polyadenylation) 等机制产生非常复杂的转录本异构体 (transcript isoforms)。这些特点导致单基因克隆和全基因组多维组学研究十分困难。因此,在克隆基因和多维组学工作中亟需确定每个基因的一个代表性转录本,使之用于研究基因在表观、转录、翻译和翻译后修饰等水平上的调控。

近日, 武汉大学高等研究院、杂交水稻全国重点实验室和湖北洪山实验室胥国勇教授团队在Journal of Genetics and Genomics在线发表题为“RNAirport: a deep neural network-based database characterizing representative gene models in plants”的研究论文。该研究通过开发排名算法和深度学习模型来注释拟南芥水稻玉米棉花和大豆基因的代表性转录本其aSaTSS代表性转录本GFF注释文档将为植物基因克隆和多维组学研究提供更准确的转录本序列信息

该研究针对基因精准注释中的第二个问题,即转录本的序列信息开展工作。首先,开发了基于符号秩和检验的排名算法,用于鉴定由于aS引起的代表性转录本,即在同一个样本中丰度最高、在不同样本中出现频率最高的转录本异构体。其次,使用CAGE-Seq实验数据确定了由于aTSS引起的丰度最高的5′-leader的末端;或者利用训练得到的5′leaderP神经网络模型,预测不含有CAGE-Seq实验数据的基因或物种5′-leader末端的CAGE分布模式。预测结果在5′-RACE实验中得到验证。最后,该研究将代表性转录本部署到RNAirport网站(http://www.rnairport.com/leader5P/)上,使5′leaderP实现在线和本地化使用。该研究仅在二倍体植物中实现,对于多倍体物种以及aPA等情况还需要进一步尝试。

代表性转录本及其5′-leader注释的流程示意图

综上所述,该研究实现了对植物代表性转录本序列信息的精准注释,为下一阶段RNA调控元件和阅读框的鉴定和注释奠定基础。

作者简介

武汉大学高等研究院博士研究生朱思涛和博士后袁术为该论文共同第一作者。胥国勇教授为通讯作者。相关工作得到国家重点研发计划、湖北洪山实验室重大项目、湖北省重点研发项目、国家自然科学基金委等资助。