近日,中国农业大学张毅教授团队在《Briefings in Bioinformatics》期刊上发表题为“GWKBR: a novel method integrating machine learning and Bayesian inference framework to improve genomic prediction accuracy”的研究成果。中国农业大学动物科学技术学院张毅教授为论文通讯作者,博士生王雪为论文的第一作者。

该研究针对传统基因组预测方法难以同时兼顾非加性遗传效应捕捉和SNP差异化加权利用的问题,提出了一种整合机器学习与贝叶斯推断框架的基因组预测方法——GWAS加权高斯核贝叶斯回归(GWKBR),为动植物复杂性状的基因组预测提供了新的方法学工具。

基因组选择是现代动植物育种中的关键技术,统计模型的选择直接影响基因组预测的准确性。传统的基因组预测方法往往忽略了非加性效应和SNP权重的异质性。因此,研究团队提出GWKBR方法,该方法引入了一种新的协方差结构先验分布,并整合了机器学习技术(加权高斯核回归和贝叶斯优化)、贝叶斯推断、限制性最大似然法(REML)、全基因组关联分析(GWAS)和交叉验证过程,能够有效地捕捉非加性效应并考虑不同SNP的相对重要性。

打开网易新闻 查看精彩图片

为系统评估GWKBR的性能,研究团队在模拟数据、多种动植物数据集以及人类疾病数据上开展了广泛验证,涉及云杉、小麦、玉米、牛和猪等多个物种,共分析23个性状,其中包括16个连续性状和7个二分类性状。结果表明,GWKBR在23个性状中有13个取得了最高的预测准确性,另有7个性状位居第二,整体表现出良好的可靠性和稳健性。尤其在非加性遗传效应较强的数据集中,GWKBR相较于多种现有方法表现出更明显的优势。

进一步分析表明,GWKBR的优势主要来源于两个方面:一是能够通过加权高斯核更充分地捕捉非加性遗传效应,提升对复杂性状的预测能力;二是能够结合GWAS信息、交叉验证和贝叶斯优化策略,在不同数据场景下自适应地选择更优核函数并实现超参数优化,从而提高模型对异质遗传背景的适应性。

该研究开发的GWKBR软件已实现GWAS分析、SNP权重计算、模型构建、模型选择及基因组预测等流程的自动化(https://github.com/Wangxuer521/GWKBR/),可为动植物及人类复杂性状的遗传评估研究提供实用工具,也为跨物种、跨性状的基因组预测方法研发提供了新的思路。