随着测序技术和生物信息学的不断进步,作物基因组学在过去十年中迅猛发展,产生海量的基因组学及多组学数据。如何整合并利用这些已发表的数据,日益成为作物基因组学领域的迫切需求。

生菜(Lactuca sativa L.)属菊科莴苣属蔬菜作物,产量全球排名前三。生菜营养价值丰富,富含多种维生素及膳食纤维。近年来,围绕生菜的基因组学研究持续开展,积累了大量基因组、转录组、变异组、表型组等组学数据。建立综合性数据库来整合现有数据,将大大促进生菜相关的科学研究。

2024年4月1日,由华大生命科学研究院和深圳国家基因库共同研发的生菜综合数据库(LettuceDB)在《Database》在线发表。作为整合多组学数据的尝试,LettuceDB旨在汇集栽培和近缘野莴苣种质的多维数据,为生菜研究与育种提供一站式数据汇交、搜寻与分析平台

打开网易新闻 查看精彩图片

LettuceDB整合了来自全球445份生菜种质材料的多组学数据,整合基因组、变异组、表型组、微生物组和时空转录组数据,利用全基因组关联分析(GWAS)建立基因型与包括表型在内的多组学数据的关联关系,并部署了丰富的生物信息学工具包。

打开网易新闻 查看精彩图片

LettuceDB多组学数据库,https://db.cngb.org/lettuce/

LettuceDB的数据基础,包括种质资源、基因组、变异组、表型组、微生物组和时空组六个可交互、多组学模块。各个模块均开发有交互式图表和独立的搜索栏,并提供与其它模块间的综合关联结果。

打开网易新闻 查看精彩图片

LettuceDB框架

LettuceDB还将多组学数据整合到基因组浏览器JBrowse中,提供参考基因组序列、基因注释、群体基因组统计和重要农艺性状的关联分析结果。工具页面提供了大量生物信息学工具,包括BLAST、LiftOver、Selective test和GWAS Single-Trait。

此外,研究团队对已发表的KN1基因进行了分析,该基因参与生菜叶片发育调控。通过数据库的BLASTN工具检索参考基因组,发现相应的Lsat_1_v5_gn_7_15020基因区含有16个单核苷酸多态性位点,通过单倍型网络分析发现大多数栽培生菜与来自伊拉克、以色列和罗马尼亚的野莴苣具有相同的单倍型,推测现代栽培品种中普遍存在的KN1等位基因是从靠近驯化中心附近的祖先野生种获得。

LettuceDB提供了一个包括生菜种质资源信息和多组学数据的一站式综合平台,有助于研究者更好地获取公共数据,并在科研和育种中加以复用。LettuceDB未来将持续整合生菜多维组学数据,为科研人员开发用户友好型网络工具,并利用最新的人工智能算法进行深入挖掘,指导生菜科研与育种工作。