近日,河北农业大学马峙英教授团队在《Nature Genetics》发表研究成果,构建了首个棉花端粒到端粒(T2T)泛参考基因组,揭示了百年陆地棉育种进化中结构变异及基因效应。河北农业大学张艳教授、孙正文副教授、吴立强研究员、谷淇深博士、柯会锋高级实验师、张桂寅研究员,北京诺禾致源科技股份有限公司田仕林研究员为同等贡献第一作者。河北农业大学王省芬教授、马峙英教授为通讯作者。

打开网易新闻 查看精彩图片

该研究首先组装了棉花优质品种“农大棉13号”(NDM13)T2T基因组,以及一个世纪以来的其他27个代表品种的近T2T基因组;发现了所有基因组中均存在的51551个一对一保守的直系同源基因,以及端粒、着丝粒、45S rDNA、片段重复(SD)和拷贝数变异(CNV)的染色体分布状态;构建了28个品种15种不同植株组织的基因转录组图谱,揭示了结构变异(SV)的热点区以及SV、SD和CNV对基因表达或含量变化以及抗逆性的影响;发掘了数千个现代育种进化中的差异SV及其相关基因;基于NDM13的T2T为参考的泛基因组构建,以及在全球1600余份种质资源样本中鉴定出的76万余个SV和来自我国长江流域、黄河流域和西北内陆三大棉区22个环境(地点、年份)的产量、品质、抗病性表型鉴定数据,捕获了大量影响关键育种性状的SV。研究成果有望推动作物的遗传研究和生物技术改良。

该研究破译28个棉花T2T基因组及基因家族表达规律。根据地理来源、育种用途、表型变异和分子亲缘关系等因素,从源自世界多个植棉国、涵盖最近一个世纪(1910s–2020s)育种历程的1671个重测序(11.87×)品种(系)中,选取28个具有代表性的棉花品种。首先,组装了纤维品质最好的国标I型优质棉品种“农大棉13号”(NDM13)(抗病虫、耐盐碱、高产优质,纤维长度32.2–32.6mm,比强度32.9–33.4cN/tex,马克隆值4.1–4.2,整齐度指数84.7-85.0%,纺纱均匀指数162–165,2019年获得国家科学技术进步奖二等奖)的T2T基因组,基因组总长2294.02 Mb,并解锁了所有着丝粒、端粒和45S rDNA等染色体复杂区域。随后对其他27个代表性棉花品种进行了基因组从头组装,破译了其全部染色体序列,基因组总长度平均为2294.90(2291.33–2298.52)Mb,染色体序列连续性、完整性和准确性与NDM13相当(近T2T)。28个基因组平均注释了79878(79373–80450)个蛋白质编码基因,总共85211个基因家族,并在所有基因组中鉴定出51551个保守的一对一同源基因。对每个品种在开花结铃期的15个营养、生殖组织的RNA测序数据分析发现,核心基因在生殖过程和物质吸收方面更为活跃,有24972个核心基因在纤维组织中的表达量显著高于其他14种组织中的任何一种,这些基因主要集中在与纤维发育相关的生物过程。

该研究解码棉花泛基因组结构变异和染色体热点区域。在28个基因组平均鉴定出7746(3282–10088)个结构变异(SV≥30bp),总计33715个非冗余SV。发现3387个INS和3541个DEL位于5989个基因(INS/DEL-gene)或其1kb侧翼区域,可能通过影响编码和调控位点而改变基因功能。研究发现INS-gene和DEL-gene的表达水平显著高于非INS-gene和非DEL-gene,在15种组织中均是如此,表明这些INS和DEL与基因表达水平提高有关。发现202个变异热点区域,同时在不同品种之间也观察到了差异,揭示了育种进化过程中产生的SV多样性。At01一个SV热点包含653个独立SV,由6个dirigent家族成员组成基因簇,在非生物和生物胁迫中调节细胞壁代谢。在Dt01另一个热点区聚集着20个抗病相关基因,在抗逆育种进化中具有重要作用。87.65%的倒位与串联重复序列重叠或相邻,暗示倒位形成最有可能的机制是非等位同源重组。发现35.39%的易位事件导致了基因的新生或丢失,其中分别有64.81%和84.92%属于染色体间TRANS,表明染色体间易位更有可能导致基因组成的变化,易位事件所涉及的所有基因主要富集于植物生长发育以及生物和非生物胁迫响应路径。

该研究揭示我国现代棉花育种基因组改良新贡献。现代育种塑造的棉花基因组变异状况尚不明确。将2000年以来我国培育的10个现代品种与基础种质Deltapine15(1950年引入的美国品种)和徐州209(1958年从美国Stoneville2B中选育)的比较发现现代品种在纤维产量和品质方面有了显著改良。在所有现代品种中分别鉴定出与Deltapine15和徐州209相同的SV涉及许多基础代谢相关基因。重要的是在现代品种中分别鉴定出7211个和7930个与Deltapine15和徐州209不同的SV,分别有393个和47个与纤维品质和产量性状相关,反映了我国品种改良过程中变异谱系和对现代育种的遗传贡献。在现代棉花品种与Deltapine15和徐州209进行比较时分别鉴定出6677个和7473个一对一的同源SV-gene,81.13%(5417个)和 81.16%(6065个)在15种棉株组织的至少1种中表达,这些变异在育种进化过程中对生物/非生物胁迫响应和纤维发育产生了重要影响。

该研究解码棉花图形基因组和群体变异育种效应。利用NDM13基因组作为线性基准参考,并基于27种棉花中的32970个非冗余的插入/缺失序列(≥30bp)构建了图形基因组。对1671个深度测序品种(系)进行基因分型,总共鉴定出30840个INS/DEL-SV,分型SV比例高达93.54%,表明该图形基因组中SV的代表性广泛。进一步确定了2382个差异显著的SV在至少1种纤维品质和产量性状(22个环境的表型)中存在差异,包括纤维长度、强度、细度、棉铃重、衣分和子指等。分析发现1027个SV与基因表达水平显著相关,预示这些基因影响着纤维品质和产量性状。发现Dt06上1个纤维长度QTL包含MHCKBL基因,其启动子存在196bp SV,导致纤维长度29.30mm与26.56mm的显著差异。GWAS揭示了2768个SV与纤维产量、品质、开花期和黄萎病抗性显著关联。新发现一些与先前研究相比具有显著关联信号的染色体区域,包括针对纤维长度的At02和Dt03、针对纤维强度的Dt11和Dt13、针对纤维细度和成熟度的At05和Dt03、针对棉铃重的At12、针对衣分的Dt03和Dt11,以及针对子指的Dt11等区域,并产生了新的关联变异,有45个SV增加了对棉花黄萎病的抗性。发现Dt11存在1个2845bp缺失片段,覆盖了编码冷响应蛋白激酶1基因(CRPK1),CRPK1 在高强力品种中特异性表达,进而影响了纤维强度。

打开网易新闻 查看精彩图片