解读 | 3000份水稻重测序为“geng”稻正名|163

粳稻有人读“jing”稻，有人读“geng”稻，那到底应该怎么读呢？2011年10月23日，国内水稻界186名专家，联名要求《新华字典》将现行“粳”的“jing”字读音修订为“geng”。咬文嚼字的背后，是对中国源远流长的稻作文化能否留存，数千年民俗传统能否得到尊重，中国水稻学界能否赢得世界学术界重新界定水稻亚种命名的思量。

2018年4月3日，有报道称，“粳”字的读音准备改过来。该文介绍国家语委启动了新中国成立以来第三次普通话审音工作，并完成了《普通话异读词审音表（修订稿）》，在教育部网站进行公示。修订稿中，确定“粳”字统读为ɡēnɡ。如今，在重磅期刊《Nature》的文章中，“geng”已经被中外科学家联合使用。

《Nature》首现汉字，为粳稻正名

今天，《Nature》刊发了7页Article研究长文 “Genomic variation in 3,010 diverse accessions of Asian cultivated rice”，该文是由中国农业科学院作物科学研究所牵头，联合国际水稻研究所、上海交通大学、华大基因、深圳农业基因组研究所、安徽农业大学、美国亚利桑那大学等16家单位共同完成的3010份亚洲稻群体重测序文章。（详见本号今日首条）

亚洲栽培稻(Oryza sativa L.)种植广泛，是世界上近一半人口的主要粮食。随着人口的增长，粮食安全问题一直被提及和重视，对水稻育种提出更高的要求如高产量、高抗生物或非生物胁迫能力。而改良水稻的基础是水稻种质和野生资源的遗传多样性。2000多年来，水稻分为两个亚种的概念已经深入人心，Xian/Indica (XI) - ‘籼’、 Hsien 或 Indica和Geng/Japonica (GJ) - ‘粳’、 Keng 或Japonica。在这篇文章中明确指出了粳稻为“geng”稻。在世界范围现有保存的水稻遗传资源大概有78万份，为了更有效应用这些资源，中国农业科学院、国际水稻所和华大基因联合启动了3000份水稻基因组（3,000 rice geomes project）项目。

研究方法

最初测序3024份水稻样本，后来进行质控过滤了14份，最终保留3010份水稻样本进行深度研究。3K RG测序数据比对到参考基因组日本晴Nipponbare上检测SNPs、indels。合并Nipponbare基因组序列和无冗余的新组装的基因组序列构建泛基因组。利用测序深度>20X，比对深度>15X的453个水稻材料进行SVs和PAVs分析。

研究结果

1、3K水稻检测到很多SNPs，但不及总体的40%

在3010个水稻样本中，使用BWA+GATK检测到29M高质量SNPs和2.5M indels（<40bp的小插入和缺失）。经过模拟发现检测到的稀有二等位SNPs（MAF<1%）只占国际水稻所基因库中水稻SNPs的40%以下。

2、3K水稻样本可以细分为9个亚群

利用核心SNP集在ADMIXTURE软件进行群体结构分析, 使用无权重的进化树展示群体分组的结果，将水稻传统的5个亚群（indica、aus、aromatic、temperate japonica和tropical japonica）分为更加精细的9个亚群：籼稻分为XI-1A、XI-1B、XI-2和 XI-3，粳稻分为GJ-tmp、GJ-sbtrp和GJ-trp，还有cA和cB，并且这些分组与水稻的地理来源是高度相关。四个XI亚群：XI-1A来自于东亚、XI-1B多来源于现代种、XI-2来自于南亚、XI-3来自于东南亚；3个GJ类群：主要是东亚温带的GJ-tmp，东南亚亚热带的GJ-sbtrp和热带的GJ-trp；还有来源于印度和孟加拉的Aus（cA）和香稻（cB）。

图1 用无权重的进化树展示3010份水稻的分组结果

3、核苷酸多态性分析

MAF>10%的SNPs在9个亚群间等位基因频率分布显著偏离中性模型，表明不同的亚群发生了不同的进化事件。进化过程中受到选择的基因表现低的核苷酸多态性（π），如控制脱粒性状的Sh4基因在所有的亚群中都表现为低的多态性（图2a）。比较转座子相关基因、非转座子基因和OGRO/QTARO数据库中1021个验证过功能的基因、78个驯化及与重要农艺性状相关的基因中的核苷酸多态性（图2b），OGRO中相关的基因多态性在不同的亚群中都出现了显著的下降现象，并且前面提到的78个基因表现尤为显著，说明这些基因受到了强烈的选择。

图2 核苷酸多态性。a、Sh4位点在不同亚群间的核苷酸多态性差异（10kb 滑动窗口）； b、基因models周围100kb范围的π值箱型图，9个亚群中100kb范围n=3,728 windows，包含TE基因(n=3,305 windows)、NTE (n=3,709 windows)、OGRO (n=828 windows)和 78个驯化相关基因(n=61 windows)。

4、水稻SVs分析

利用定制化的novoBreak软件，将3010个水稻的测序数据比对到Nipponbare参考基因组上检测SVs。着重研究453个测序深度>20X的品系，检测到93,683个SVs，包括582个大于500kb的SVs，平均每个基因组有12,178个SVs。在XI和GJ亚群间SVs表现出明显的差异，平均GJ品系中SVs是XI品系的~3.5倍（图3a）、差异的SV序列长度达到71M (图3b)、GJ中1,940 SVs 打断了蛋白编码基因 (图3c)。利用453品系的SV构建进化树与SNP构建的进化树类似，将样本明确的分为XI、GJ、cA和cB (图3d)。另外在主要的亚群间有41957个不平衡SVs，不均衡分布于XI、GJ、cA和cB中（图3e）。大量的SVs可能是不同程度杂种不育和XI与GJ杂种衰退的遗传基础。

图3 453个高覆盖度水稻品系SVs统计结果。a、缺失、复制、倒位和易位的数量； b、SVs影响的基因组大小；c、受SVs影响的基因数量；d、利用1万个随机筛选的SVs构建的453个水稻品系的进化关系；e、利用双边Fisher精确检验衡量42,207主要群组不平衡SVs 在XI、 GJ、cA和cB 亚群中的不均衡特性。 a-c图中利用的数据是平均值±标准偏差，XI、 GJ、cA、cB 和混合组亚群的样本量分别是303、92、33、10和15。

5、水稻泛基因组研究

广泛存在的SVs和基因组大小差异表明在3K RG中存在着大量的蛋白编码基因受到PAVs变异的影响。本研究第一次使用“map-to-pan”策略建立重要品系的泛基因组，合并参考基因组的序列和重新组装的基因组序列，通过比对检测每个品系基因和CDS覆盖度来判断是否存在PAVs。利用三代+二代数据组装获得IR8（XI亚群）和N22（cA亚群）的参考基因组，用以评价泛基因组的完整性和冗余程度。

通过组装3010个基因组，获得了不存在于Nipponbare参考基因组上的268M非冗余序列，并预测到12,465新的全长基因和数千个不完整的新基因。在水稻泛基因组中，包含了12,770个（53.5%）核心（core）基因家族和9050个（37.9%）分散式(distribute)基因家族（图4a、4b）。通过模拟发现，这9050个基因家族低估了分散的泛基因（图4c）。核心基因家族含有更多基因（图 4d）并且代表着必需基因家族。基因或基因家族的PAVs在主要亚群间也差异显著，XI和GJ品系间相差>6144（14.9%）的基因和约2878（14.3%）的基因家族(图4e)。5733个主要组群的不平衡基因家族在不同的亚群出现的频率也差异显著（图4f）。

图4、水稻泛基因组。a、基因家族PAVs；b、泛基因组和一个单独的基因组的组成成份；c、基于500个随机筛选的水稻基因组模拟泛基因组和核心基因组；d、核心和分散式基因家族比例；e、两个品系间基因家族平均数量差异；f、5733主要群组不平衡基因家族特性。

6、水稻的进化和驯化

为了揭示水稻泛基因组的进化历史，从NCBI上下载NR蛋白数据库，并将所有蛋白根据物种分类标准分为13个蛋白组，并建立起13个蛋白组的BLASTP比对数据库。泛基因组中所有的基因翻译成蛋白，利用BLASTP比对到分类好的蛋白数据库上。一个基因的年龄被认为是比对上的最古老的蛋白所在的分类组。不能被比对到所有数据库上的水稻基因被分配到PS13，一些存在于野生稻中的PS13基因被重新分配到PS12上。

研究发现：（1）新的基因/基因家族是从PS1(约36亿年前)以不同的速率进化到PS13（约150万年前）的，而PS13是演化的末端分支，包含了栽培稻O. sativa。（2）伴随着Oryza（PS12）的形成，新基因爆炸性出现。（3）核心基因比较古老，大多数的新基因/基因家族在年龄上更加年轻，长度上更加短小。（4）相较于核心基因，分散式基因中存在更多的SNP变异。（5）相较于Nipponbare基因组，更多的核心基因受到了负选择。

为了研究水稻的驯化历程，构建了9个受到驯化的基因的单倍型，这些基因包括：Rc、Bh4、PROG1、OsC1、Sh4、Wx、GS3、qSH1和qSW5（图5a-c）。很多的XI品系携带的等位基因没有出现在GJ中（图5d），约70%的XI品系至少有4个基因没有携带GJ基因渗入，仅有一个XI样本（XI样本共1789个）含有这9个基因的GJ单倍型。这个现象支持一些XI材料是独立驯化来的假说，而不是简单的由GJ到XI的基因渗入。此外，Rc基因上存在的14bp缺失是水稻驯化成白色果皮的重要位点，这个位点出现在一些XI亚群的品系中，而这些样本中并没有携带渗入的单倍型，说明XI亚群中部分材料的独立选择发生于基因渗入前。

图5 基因渗入单倍型分析。a-c、3个驯化相关基因Bh4(a)、OsC1(b)和qSH1(c)的单倍型，横坐标代表样本，纵坐标代表SNPs，灰色竖线代表基因位置，左边的彩条代表9个亚群，右边的彩条代表XI样本的渗入状态（绿色代表无渗入、黑色代表可能从GJ渗入）；d、9个驯化相关基因在1789个XI样本的渗入测试，Y轴代表基因， X轴代表XI样本。

7、3K RG的应用

利用3K水稻检测的SNP进行GWAS分析定位影响高可遗传性性状粒长（GRLT）、粒宽（GRWD）、白叶枯病（BB）抗性等性状的相关基因位点。GWAS定位结果与已知位点一致，包括与GRLT相关的GS3、GW5、qGL7和与GRWD相关的GW5。对于GRWD，在染色体9上有个新的检测位点与OsFD1一致，是一个bZIP转录因子影响开花期和发育可塑性，它的多态性调控功能将影响粒宽。

在C5品种中检测到12个与BB抗性相关的位点，在11号染色体抗性基因Xa26周围有个最大的簇。基因PAVs变异和株高已知基因sd1相关。sd1基因是由385bp的缺失造就的，能降低株高，在XI-1A和XI-1B亚群的大部分品系中都是缺失的。

3K RG反映了大规模基因组学研究的潜力，如果所有的品系都被测序，将构建一个大型的数字基因库。下一步的研究将会集中到将水稻的基因型和表型进行关联，检测不同大田和实验环境下的表型值，并鉴定哪些基因，哪些标记与目标性状关联，去指导和加快水稻的育种进程。当我们把控制农艺性状的基因研究透彻，在未来实现水稻的分子设计育种将成为可能。

分析代码获得途径：（以下链接请复制用浏览器打开）

泛基因组研究和基因/基因家族PAVs检测方法进行整合并发表为EUPAN toolkit。 Tailored novoBreak-germline分析软件网站：https://sourceforge.net/projects/novobreak/?source=navbar.

核苷酸多态性和SNP整合代码：https://github.com/dchebotarov/3k-SNP-paper.

数据获得途径：

3K RG 测序数据在NCBI上为PRJEB6180，DDBJ上为ERP005654和GigaScience数据库 http://dx.doi.org/10.5524/200001

3K RGThe BAM比对文件和变异检测VCF文件下载地址： https://aws.amazon.com/public-data-sets/3000-rice-genome/

3K RG 项目介绍：http://iric.irri.org/resources/3000-genomes-project

3K RG的SVs和PAVs数据链接：https://doi.org/10.6084/m9.figshare.c.3876022.v1.

3K RG SNP数据库SNP-Seek: http://snp-seek.irri.org

RMBreeding databases: http://www.rmbreeding.cn/index.php

Rice遗传数据：http://www.ricecloud.org/

IRRI Galaxy: http://galaxy.irri.org/