面对日益增长的全球粮食需求,如何快速精准地预测作物复杂性状,是分子育种领域的核心挑战。传统方法或受限于线性假设,难以捕捉基因间复杂的非线性互作;或依赖少数显著位点,丢失了大量微效多基因信息。同时,海量基因组数据与模型可解释性之间的鸿沟,也限制了人工智能在育种中的实际应用。
2026年3月27日,中国农业科学院作物科学研究所孙君明研究员、李英慧研究员、李静副研究员团队在《自然·通讯》(Nature Communications)上发表题为《Leveraging weighted embedding and Transformer architecture to improve phenotype prediction of complex traits for crops》的研究论文。该研究开发了一种名为GP-WAITER的深度学习框架,通过创新性地整合GWAS权重与Transformer架构,为作物基因组预测提供了高效、精准且可解释的新方案。
研究团队首先构建了GP-WAITER模型,其核心在于一个加权嵌入模块。该模块将全基因组关联分析(GWAS)计算出的SNP权重与基因组序列进行元素级相乘,使模型在训练之初便能感知每个变异的潜在表型贡献。随后,数据通过卷积神经网络(CNN)提取局部特征,再交由多层Transformer编码器,利用多头自注意力机制捕获超长基因组序列中的远距离依赖关系。该设计让模型能在并行计算中,动态为不同基因组区域分配注意力权重。
为验证模型性能,研究者在涵盖大豆、玉米、水稻、小麦的六个独立数据集中,将GP-WAITER与rrBLUP、XGBoost、CNN等七种主流方法进行了系统比较。结果显示,GP-WAITER在所有数据集上均表现最优,预测准确性较其他模型提升8.9%至77.5%,均方误差(MSE)最高降低95.9%。在拥有近5.7亿数据点的大规模大豆群体中,其计算速度相比其他深度学习方法提升1.8至2.4倍,峰值显存占用仅536 MB,展现出优异的计算效率与扩展性。
模型的可解释性是另一大亮点。通过SHAP分析方法,研究团队成功定位了驱动特定性状的关键遗传变异。例如,在总异黄酮含量预测中,排名首位的变异位于MFT基因内。进一步单倍型分析证实,该位点不同等位基因型的大豆材料在油分、油酸等四种营养品质上均存在显著差异。更有趣的是,SHAP分析还鉴定出一个在常规GWAS中因效应较小而未能检出的候选位点(位于查尔酮合酶基因附近),说明该方法能有效挖掘被传统统计学方法遗漏的微效位点。
研究进一步揭示了影响预测精度的关键因素。分析表明,性状的遗传力与预测精度呈正相关(R²=0.58)。当利用全基因组SNP进行预测时,准确度最高;而仅使用基因区SNP时,准确度显著下降。有趣的是,对模型贡献度最高的变异(高SHAP值)有超过90%富集在调控区和基因区,这解释了为何聚焦于这些功能区域的模型能获得更高的预测精度。通过消融实验,团队证实了加权信息的重要性:加入GWAS权重后,模型平均预测精度提升了7.9%,在多个性状上的优势尤为明显。
READING
BioPeers
欢迎关注本公众号,所有内容欢迎点赞,推荐❤️,评论,转发~
如有错误、遗漏、侵权或商务合作请私信小编~~
欢迎大家投稿课题组 研究进展 、招聘及招生宣传~
所有文章只为科普、科研服务,无商业目的~
热门跟贴