Nature Commun | 中国农科院李英慧/孙君明/李静团队新模型让作物育种预测准确率提升超七成|中国农科院|变异|孙君明|新品种|李英慧|育种

面对日益增长的全球粮食需求，如何快速精准地预测作物复杂性状，是分子育种领域的核心挑战。传统方法或受限于线性假设，难以捕捉基因间复杂的非线性互作；或依赖少数显著位点，丢失了大量微效多基因信息。同时，海量基因组数据与模型可解释性之间的鸿沟，也限制了人工智能在育种中的实际应用。

2026年3月27日，中国农业科学院作物科学研究所孙君明研究员、李英慧研究员、李静副研究员团队在《自然·通讯》（Nature Communications）上发表题为《Leveraging weighted embedding and Transformer architecture to improve phenotype prediction of complex traits for crops》的研究论文。该研究开发了一种名为GP-WAITER的深度学习框架，通过创新性地整合GWAS权重与Transformer架构，为作物基因组预测提供了高效、精准且可解释的新方案。

研究团队首先构建了GP-WAITER模型，其核心在于一个加权嵌入模块。该模块将全基因组关联分析（GWAS）计算出的SNP权重与基因组序列进行元素级相乘，使模型在训练之初便能感知每个变异的潜在表型贡献。随后，数据通过卷积神经网络（CNN）提取局部特征，再交由多层Transformer编码器，利用多头自注意力机制捕获超长基因组序列中的远距离依赖关系。该设计让模型能在并行计算中，动态为不同基因组区域分配注意力权重。

为验证模型性能，研究者在涵盖大豆、玉米、水稻、小麦的六个独立数据集中，将GP-WAITER与rrBLUP、XGBoost、CNN等七种主流方法进行了系统比较。结果显示，GP-WAITER在所有数据集上均表现最优，预测准确性较其他模型提升8.9%至77.5%，均方误差（MSE）最高降低95.9%。在拥有近5.7亿数据点的大规模大豆群体中，其计算速度相比其他深度学习方法提升1.8至2.4倍，峰值显存占用仅536 MB，展现出优异的计算效率与扩展性。

模型的可解释性是另一大亮点。通过SHAP分析方法，研究团队成功定位了驱动特定性状的关键遗传变异。例如，在总异黄酮含量预测中，排名首位的变异位于MFT基因内。进一步单倍型分析证实，该位点不同等位基因型的大豆材料在油分、油酸等四种营养品质上均存在显著差异。更有趣的是，SHAP分析还鉴定出一个在常规GWAS中因效应较小而未能检出的候选位点（位于查尔酮合酶基因附近），说明该方法能有效挖掘被传统统计学方法遗漏的微效位点。

研究进一步揭示了影响预测精度的关键因素。分析表明，性状的遗传力与预测精度呈正相关（R²=0.58）。当利用全基因组SNP进行预测时，准确度最高；而仅使用基因区SNP时，准确度显著下降。有趣的是，对模型贡献度最高的变异（高SHAP值）有超过90%富集在调控区和基因区，这解释了为何聚焦于这些功能区域的模型能获得更高的预测精度。通过消融实验，团队证实了加权信息的重要性：加入GWAS权重后，模型平均预测精度提升了7.9%，在多个性状上的优势尤为明显。

READING

BioPeers

欢迎关注本公众号，所有内容欢迎点赞，推荐❤️，评论，转发~

如有错误、遗漏、侵权或商务合作请私信小编~~

欢迎大家投稿课题组研究进展、招聘及招生宣传~

所有文章只为科普、科研服务，无商业目的~