植物在生长过程中时刻面临着病毒、细菌、真菌和卵菌等多种病原体的威胁。为了抵御这些侵害,植物进化出了复杂的免疫系统(包括PTI和ETI),其核心依赖于各类抗病基因(如NLRs、RLKs、RLPs和TKPs)对病原体信号的精准识别。在全基因组水平上准确鉴定这些抗病基因,对于理解植物免疫机制和加速抗病作物的分子育种至关重要。然而,这些抗病蛋白中关键的富含亮氨酸重复序列结构域(LRR domain)具有极高的序列多样性,且抗病基因的结构域拓扑排列复杂多样。现有的注释工具(如NLRtracker、DeepLRR等)往往局限于典型结构或特定受体类型,难以实现多类型抗病基因的高精度、全景式发掘,这成为了植物抗病基因组学研究的一大挑战。
近日,中国热带农业科学院/中国农科院农业基因组所周永锋团队联合墨尔本大学王怡雯助理教授在Plant Physiology发表了题为Machine learning empowers precise discovery of disease-resistance genes in plants的研究论文。该研究开发了一种基于深度蛋白质语言模型和机器学习模型的LRR domain注释算法(ESM-LRR),并在此基础上构建了全新的植物抗病基因高精度注释框架(R-Predictor),显著提升了各类抗病基因的挖掘效率与准确性,为作物抗病育种提供了强大的生物信息学工具。
研究团队首先针对高度变异的LRR结构域,创新性地提出了ESM-LRR方法。该方法利用深度蛋白质语言模型ESM-1v提取输入序列的高维特征,并结合机器学习模型(随机森林回归),精准捕捉LRR domain的连续特征变化。基准测试表明,ESM-LRR打破了传统基于预定义序列模式(Motif)的方法局限,在识别LRR domain时获得了最高的F1 score,优于现有主流方法(图1)。
图1|ESM-LRR基于高斯概率分布(μ=0,σ=0.2)为序列片段赋予连续得分,以此来量化给定序列代表真实LRR单元的可能性
基于这一核心突破,研究团队进一步开发了抗病基因预测框架R-Predictor。该框架整合了ESM-LRR与信号肽、跨膜区、卷曲螺旋等结构域最优检测工具,能够同时注释TKPs、RLKs、RLPs和NLRs等15种不同结构域拓扑类型。不仅能识别典型的抗病基因,还能精准捕获缺乏典型结构域组合(如缺失或替换)的非典型抗病基因(图2)。
图2|R-Predictor框架
为了验证R-Predictor的实际应用潜力,研究团队在拟南芥、水稻、番茄和葡萄等多种代表性植物基因组中开展了全面的性能评估。结果表明,R-Predictor展现出卓越的跨物种通用性和全景式的注释能力。与现有的主流专一性注释工具相比,R-Predictor不仅能够挖掘出更为丰富、完整的抗病基因库(涵盖TKPs、各类RLKs、RLPs及NLRs),同时维持了极高的注释准确率。在基准测试中,该框架注释RLK和NLR的F1 score分别高达0.89和0.88,为植物抗病基因的全基因组高精度注释提供了可靠的方法支撑(图3)。
图3|R-Predictor识别与葡萄灰霉病和霜霉病相关的抗病基因
中国农科院农业基因组所博士研究生刘镇亚、爱尔兰都柏林大学博士研究生王旭与美国田纳西大学博士研究生曹硕为论文共同第一作者,中国热带农业科学院周永锋研究员和墨尔本大学王怡雯助理教授为共同通讯作者。周永锋团队其他成员也为本研究做出了重要贡献。中国热带农业科学院陈程杰研究员对这项研究提供了宝贵的指导和帮助。本研究得到国家重点研发计划及热带作物育种相关重点实验室项目支持。
https://doi.org/10.1093/plphys/kiag276
Github:
https://github.com/zhouyflab/R-Predictor
热门跟贴