近日,华南农业大学农学院、未来作物精准育种基础研究卓越中心、亚热带农业生物资源保护与利用国家重点实验室和岭南现代农业科学与技术广东省实验室刘耀光院士/祝钦泷研究员团队与清华大学合作在Advanced Science在线发表了题为PlantGPT: An Arabidopsis-based Intelligent Agent That Answers Questions About Plant Functional Genomics的研究论文。该工作开发了一个以拟南芥为基础的植物功能基因组学专家问答系统PlantGPT(http://www.plantgpt.icu),通过融合检索增强生成(RAG)技术和大语言模型(LLM)微调方法,实现了对植物功能基因组学专业问题的精准回答,为植物科学研究领域提供了全新的人工智能辅助工具。
面对全球粮食安全和作物品质提升的挑战,功能基因组学研究在增加作物产量、改善营养品质、提高抗病虫性和逆境适应性等方面发挥了关键作用。然而,现有的计算生物学手段在解析复杂生物系统调控机制及整合多组学数据方面仍存在瓶颈。同时,传统植物数据库如TAIR(The Arabidopsis Information Resource)尽管包含丰富数据资源,但因交互方式局限,常常要求用户掌握精确的性状或基因命名才能有效检索信息。
图1. PlantGPT的技术工作流程图
为突破这些限制,研究团队构建了PlantGPT——一个以拟南芥为模型的功能基因组学智能专家平台。该系统基于收录超过6万篇植物研究文献摘要的向量数据库,并通过领域特定的语言数据微调,建立了更加智能高效的专业知识查询体系。
图2. 拟南芥向量数据库增强不同大语言模型的专业问答能力
技术创新
1. 高标准知识库搭建
研究团队在PubMed数据库中搜索包含"拟南芥"关键词的文献(1992-2024年),共获得逾70,000篇文章,随后采用严格的期刊评选准则,最终精选出60,429篇优质研究论文构建知识基础。评选标准包括JCR分区Q1-Q3以及植物科学领域内排名前60%的权威期刊。
2. 最优文本处理方案
团队系统性测试了7种文本分割方案,经过综合评估确定了最适宜的策略——50词长段落配以30词重叠设置(50-30方案)。该方案在科学精确度、信息全面性、逻辑通顺性、语境连贯性以及应答流畅度等五项指标上表现最佳,达到80.9分(总分100)的优异成绩。
3. 高效RAG强化策略
通过评估多种RAG检索规模对各类大语言模型的影响,团队发现RAG-Tan(检索相似度阈值前所有向量)配合Claude Opus达到最优效果(74.9分)。值得注意的是,不同模型对RAG检索量有各自的最佳配置:GPT-3.5-turbo-0125在RAG10配置下表现最优,而GPT-4o则随检索量增长不断提升。
图3. PlantGPT预训练数据库结构及训练成效
4. 微调技术优化
研究团队整合13,993个拟南芥表型数据及23,323个基因功能注释,构建了超过10万组问答数据集,用于优化Meta Llama3 8B开源模型。经过微调的模型在专业问题回答上得分达69.3分,超过了Claude Opus(68.45分)等商业模型的表现。
5. 跨物种应用潜力
在跨物种知识转移测试中,PlantGPT成功将拟南芥研究成果推广至水稻、小麦和玉米等重要作物,综合评分分别为75.1、75.2和71.4分(满分100)。在知识迁移这一核心指标上,三种作物均获得6.1分(满分10分),展现了优异的通用性。
图4. PlantGPT的跨物种评估性能
实际应用价值
本研究有效克服了大语言模型在植物学专业应用中的"幻觉"难题,借助RAG技术和微调方法的协同作用,显著增强了模型的专业准确性。与现有数据库相比,PlantGPT支持自然语言对话,使研究者能用通俗问答方式获取信息,无需预先掌握专业术语。
PlantGPT已通过免费在线平台(http://www.plantgpt.icu)对研究社区开放,无需注册即可使用。该工具不仅助力研究人员快速掌握植物基因组研究前沿,更能为基因调控网络分析和作物改良研究提供科学依据。展望未来,团队将致力于拓展平台应用范围,重点关注合成生物学、产量调控性状及抗逆机制研究等农业发展核心领域。
华南农业大学博士生张瑞祥、清华大学博士生王昱和博士生杨威杨为该论文共同第一作者,祝钦泷研究员、刘耀光院士和清华大学自动化系谷淼博士为共同通讯作者。该研究得到了国家自然科学基金、生物育种-国家科技重大专项、广东省未来作物精准育种基础研究卓越中心重大项目和广东省种业振兴项目的资助。感谢新疆维吾尔自治区农业科学院农业质量标准与检测技术研究所李彬彬博士、浙江大学杭州国际科创中心博士后台莉、西北工业大学生态环境学院博士生许晓敬、西北农林科技大学生命科学学院硕士生张云飞和华南农业大学生命科学学院本科生郑星磊等对论文完善的热情帮助。
http://doi.org/10.1002/advs.202503926
PlantGPT:
热门跟贴