粳稻有人读“jing”稻,有人读“geng”稻,那到底应该怎么读呢?2011年10月23日,国内水稻界186名专家,联名要求《新华字典》将现行“粳”的“jing”字读音修订为“geng”。咬文嚼字的背后,是对中国源远流长的稻作文化能否留存,数千年民俗传统能否得到尊重,中国水稻学界能否赢得世界学术界重新界定水稻亚种命名的思量。

2018年4月3日,有报道称,“粳”字的读音准备改过来。该文介绍国家语委启动了新中国成立以来第三次普通话审音工作,并完成了《普通话异读词审音表(修订稿)》,在教育部网站进行公示。修订稿中,确定“粳”字统读为ɡēnɡ。如今,在重磅期刊《Nature》的文章中,“geng”已经被中外科学家联合使用。

《Nature》首现汉字,为粳稻正名

今天,《Nature》刊发了7页Article研究长文 “Genomic variation in 3,010 diverse accessions of Asian cultivated rice”,该文是由中国农业科学院作物科学研究所牵头,联合国际水稻研究所、上海交通大学、华大基因、深圳农业基因组研究所、安徽农业大学、美国亚利桑那大学等16家单位共同完成的3010份亚洲稻群体重测序文章。(详见本号今日首条)

亚洲栽培稻(Oryza sativa L.)种植广泛,是世界上近一半人口的主要粮食。随着人口的增长,粮食安全问题一直被提及和重视,对水稻育种提出更高的要求如高产量、高抗生物或非生物胁迫能力。而改良水稻的基础是水稻种质和野生资源的遗传多样性。2000多年来,水稻分为两个亚种的概念已经深入人心,Xian/Indica (XI) - ‘籼’、 Hsien 或 Indica和Geng/Japonica (GJ) - ‘粳’、 Keng 或Japonica。在这篇文章中明确指出了粳稻为“geng”稻。在世界范围现有保存的水稻遗传资源大概有78万份,为了更有效应用这些资源,中国农业科学院、国际水稻所和华大基因联合启动了3000份水稻基因组(3,000 rice geomes project)项目

研究方法

最初测序3024份水稻样本,后来进行质控过滤了14份,最终保留3010份水稻样本进行深度研究。3K RG测序数据比对到参考基因组日本晴Nipponbare上检测SNPs、indels。合并Nipponbare基因组序列和无冗余的新组装的基因组序列构建泛基因组。利用测序深度>20X,比对深度>15X的453个水稻材料进行SVs和PAVs分析。

研究结果

1、3K水稻检测到很多SNPs,但不及总体的40%

在3010个水稻样本中,使用BWA+GATK检测到29M高质量SNPs和2.5M indels(<40bp的小插入和缺失)。经过模拟发现检测到的稀有二等位SNPs(MAF<1%)只占国际水稻所基因库中水稻SNPs的40%以下。

2、3K水稻样本可以细分为9个亚群

利用核心SNP集在ADMIXTURE软件进行群体结构分析, 使用无权重的进化树展示群体分组的结果,将水稻传统的5个亚群(indica、aus、aromatic、temperate japonica和tropical japonica)分为更加精细的9个亚群: 籼稻分为XI-1A、XI-1B、XI-2和 XI-3,粳稻分为GJ-tmp、GJ-sbtrp和GJ-trp,还有cA和cB,并且这些分组与水稻的地理来源是高度相关。四个XI亚群:XI-1A来自于东亚、XI-1B多来源于现代种、XI-2来自于南亚、XI-3来自于东南亚;3个GJ类群:主要是东亚温带的GJ-tmp,东南亚亚热带的GJ-sbtrp和热带的GJ-trp;还有来源于印度和孟加拉的Aus(cA)和香稻(cB)。

图1 用无权重的进化树展示3010份水稻的分组结果

3、核苷酸多态性分析

MAF>10%的SNPs在9个亚群间等位基因频率分布显著偏离中性模型,表明不同的亚群发生了不同的进化事件。进化过程中受到选择的基因表现低的核苷酸多态性(π),如控制脱粒性状的Sh4基因在所有的亚群中都表现为低的多态性(图2a)。比较转座子相关基因、非转座子基因和OGRO/QTARO数据库中1021个验证过功能的基因、78个驯化及与重要农艺性状相关的基因中的核苷酸多态性(图2b),OGRO中相关的基因多态性在不同的亚群中都出现了显著的下降现象,并且前面提到的78个基因表现尤为显著,说明这些基因受到了强烈的选择。

图2 核苷酸多态性。a、Sh4位点在不同亚群间的核苷酸多态性差异(10kb 滑动窗口); b、基因models周围100kb范围的π值箱型图,9个亚群中100kb范围n=3,728 windows,包含TE基因(n=3,305 windows)、NTE (n=3,709 windows)、OGRO (n=828 windows)和 78个驯化相关基因(n=61 windows)。

4、水稻SVs分析

利用定制化的novoBreak软件,将3010个水稻的测序数据比对到Nipponbare参考基因组上检测SVs。着重研究453个测序深度>20X的品系,检测到93,683个SVs,包括582个大于500kb的SVs,平均每个基因组有12,178个SVs。在XI和GJ亚群间SVs表现出明显的差异,平均GJ品系中SVs是XI品系的~3.5倍(图3a)、差异的SV序列长度达到71M (图3b)、GJ中1,940 SVs 打断了蛋白编码基因 (图3c)。利用453品系的SV构建进化树与SNP构建的进化树类似,将样本明确的分为XI、GJ、cA和cB (图3d)。另外在主要的亚群间有41957个不平衡SVs,不均衡分布于XI、GJ、cA和cB中(图3e)。大量的SVs可能是不同程度杂种不育和XI与GJ杂种衰退的遗传基础。

图3 453个高覆盖度水稻品系SVs统计结果。a、缺失、复制、倒位和易位的数量; b、SVs影响的基因组大小;c、受SVs影响的基因数量;d、利用1万个随机筛选的SVs构建的453个水稻品系的进化关系;e、利用双边Fisher精确检验衡量42,207主要群组不平衡SVs 在XI、 GJ、cA和cB 亚群中的不均衡特性。 a-c图中利用的数据是平均值±标准偏差,XI、 GJ、cA、cB 和混合组亚群的样本量分别是303、92、33、10和15。

5、水稻泛基因组研究

广泛存在的SVs和基因组大小差异表明在3K RG中存在着大量的蛋白编码基因受到PAVs变异的影响。本研究第一次使用“map-to-pan”策略建立重要品系的泛基因组,合并参考基因组的序列和重新组装的基因组序列,通过比对检测每个品系基因和CDS覆盖度来判断是否存在PAVs。利用三代+二代数据组装获得IR8(XI亚群)和N22(cA亚群)的参考基因组,用以评价泛基因组的完整性和冗余程度。

通过组装3010个基因组,获得了不存在于Nipponbare参考基因组上的268M非冗余序列,并预测到12,465新的全长基因和数千个不完整的新基因。在水稻泛基因组中,包含了12,770个(53.5%)核心(core)基因家族和9050个(37.9%)分散式(distribute)基因家族(图4a、4b)。通过模拟发现,这9050个基因家族低估了分散的泛基因(图4c)。核心基因家族含有更多基因(图 4d)并且代表着必需基因家族。基因或基因家族的PAVs在主要亚群间也差异显著,XI和GJ品系间相差>6144(14.9%)的基因和约2878(14.3%)的基因家族(图4e)。5733个主要组群的不平衡基因家族在不同的亚群出现的频率也差异显著(图4f)。

图4、水稻泛基因组。a、基因家族PAVs;b、泛基因组和一个单独的基因组的组成成份;c、基于500个随机筛选的水稻基因组模拟泛基因组和核心基因组;d、核心和分散式基因家族比例;e、两个品系间基因家族平均数量差异;f、5733主要群组不平衡基因家族特性。

6、水稻的进化和驯化

为了揭示水稻泛基因组的进化历史,从NCBI上下载NR蛋白数据库,并将所有蛋白根据物种分类标准分为13个蛋白组,并建立起13个蛋白组的BLASTP比对数据库。泛基因组中所有的基因翻译成蛋白,利用BLASTP比对到分类好的蛋白数据库上。一个基因的年龄被认为是比对上的最古老的蛋白所在的分类组。不能被比对到所有数据库上的水稻基因被分配到PS13,一些存在于野生稻中的PS13基因被重新分配到PS12上。

研究发现:(1)新的基因/基因家族是从PS1(约36亿年前)以不同的速率进化到PS13(约150万年前)的,而PS13是演化的末端分支,包含了栽培稻O. sativa。(2)伴随着Oryza(PS12)的形成,新基因爆炸性出现。(3)核心基因比较古老,大多数的新基因/基因家族在年龄上更加年轻,长度上更加短小。(4)相较于核心基因,分散式基因中存在更多的SNP变异。(5)相较于Nipponbare基因组,更多的核心基因受到了负选择。

为了研究水稻的驯化历程,构建了9个受到驯化的基因的单倍型,这些基因包括:Rc、Bh4、PROG1、OsC1、Sh4、Wx、GS3、qSH1和qSW5(图5a-c)。很多的XI品系携带的等位基因没有出现在GJ中(图5d),约70%的XI品系至少有4个基因没有携带GJ基因渗入,仅有一个XI样本(XI样本共1789个)含有这9个基因的GJ单倍型。这个现象支持一些XI材料是独立驯化来的假说,而不是简单的由GJ到XI的基因渗入。此外,Rc基因上存在的14bp缺失是水稻驯化成白色果皮的重要位点,这个位点出现在一些XI亚群的品系中,而这些样本中并没有携带渗入的单倍型,说明XI亚群中部分材料的独立选择发生于基因渗入前。

图5 基因渗入单倍型分析。a-c、3个驯化相关基因Bh4(a)、OsC1(b)和qSH1(c)的单倍型,横坐标代表样本,纵坐标代表SNPs,灰色竖线代表基因位置,左边的彩条代表9个亚群,右边的彩条代表XI样本的渗入状态(绿色代表无渗入、黑色代表可能从GJ渗入);d、9个驯化相关基因在1789个XI样本的渗入测试,Y轴代表基因, X轴代表XI样本。

7、3K RG的应用

利用3K水稻检测的SNP进行GWAS分析定位影响高可遗传性性状粒长(GRLT)、粒宽(GRWD)、白叶枯病(BB)抗性等性状的相关基因位点。GWAS定位结果与已知位点一致,包括与GRLT相关的GS3、GW5、qGL7和与GRWD相关的GW5。对于GRWD,在染色体9上有个新的检测位点与OsFD1一致,是一个bZIP转录因子影响开花期和发育可塑性,它的多态性调控功能将影响粒宽。

在C5品种中检测到12个与BB抗性相关的位点,在11号染色体抗性基因Xa26周围有个最大的簇。基因PAVs变异和株高已知基因sd1相关。sd1基因是由385bp的缺失造就的,能降低株高,在XI-1A和XI-1B亚群的大部分品系中都是缺失的。

3K RG反映了大规模基因组学研究的潜力,如果所有的品系都被测序,将构建一个大型的数字基因库。下一步的研究将会集中到将水稻的基因型和表型进行关联,检测不同大田和实验环境下的表型值,并鉴定哪些基因,哪些标记与目标性状关联,去指导和加快水稻的育种进程。当我们把控制农艺性状的基因研究透彻,在未来实现水稻的分子设计育种将成为可能。

分析代码获得途径:(以下链接请复制用浏览器打开)

泛基因组研究和基因/基因家族PAVs检测方法进行整合并发表为EUPAN toolkit。 Tailored novoBreak-germline分析软件网站:https://sourceforge.net/projects/novobreak/?source=navbar.

核苷酸多态性和SNP整合代码:https://github.com/dchebotarov/3k-SNP-paper.

数据获得途径:

3K RG 测序数据在NCBI上为PRJEB6180,DDBJ上为ERP005654和GigaScience数据库 http://dx.doi.org/10.5524/200001

3K RGThe BAM比对文件和变异检测VCF文件下载地址: https://aws.amazon.com/public-data-sets/3000-rice-genome/

3K RG 项目介绍:http://iric.irri.org/resources/3000-genomes-project

3K RG的SVs和PAVs数据链接:https://doi.org/10.6084/m9.figshare.c.3876022.v1.

3K RG SNP数据库SNP-Seek: http://snp-seek.irri.org

RMBreeding databases: http://www.rmbreeding.cn/index.php

Rice遗传数据:http://www.ricecloud.org/

IRRI Galaxy: http://galaxy.irri.org/

3K Rice Pan-genome Browser: http://cgm.sjtu.edu.cn/3kricedb/.

撰稿:小萍、太帅帅

编辑:市场部

推荐阅读

安徽农业大学、华大基因研究团队破解中国种茶树全基因组密码

解读 | 《PNAS》茶树基因组研究思路分析

【近期热文】

肿瘤深度分析 | 不仅仅是高级,更是结合表型的专属分析

单细胞RNA-Seq产品全新升级,再不来就晚了

注意!小RNA定量分析不准确!丢失的数据该如何找回?

为长江江豚正名 | 南京师大与华大基因等联合完成江豚基因组


请继续关注“华大科技BGITech”公众号,

科技君将一如既往地为您提供精彩内容!

如有相关问题,欢迎后台留言~~

关注华大科技,尽享精彩科研!