来自北卡罗来纳大学教堂山分校研究人员的一项新研究表明,先进的人工智能工具,尤其是大型语言模型(LLMs),可以准确确定植物标本最初采集的地点,这一过程被称为地理定位。
这篇研究论文发表在《自然植物》期刊上。
这个任务传统上速度慢、成本高,还需要大量人工努力。研究团队发现,LLMs可以以接近人类的准确度来完成这项工作,而且速度更快、成本更低。
大型语言模型如何改变地理定位
“我们的研究探讨了大型语言模型如何应对数字化植物收藏中的一个主要瓶颈,”北卡罗来纳大学生物系的第一作者和博士后研究员谢宇扬说。
“我们正在开创这些工具在地理定位方面的应用,这一突破将加速植物标本的数字化,并为生态研究带来新的机遇。”
这项研究的核心问题是:人工智能能否自动化数字化自然历史收藏中最耗时的步骤之一?卡罗来纳团队发现,答案确实是肯定的。大型语言模型不仅在误差范围低于10公里的情况下完成了地理定位,超越了传统方法,还以极低的时间和成本完成了任务。
“最近在大型语言模型(LLMs)技术方面的进展可能会改变地理定位过程,让这个过程变得更快、更准确,”UNC生物系的通讯作者和助理教授肖峰说。
“这给研究人员带来了前所未有的机会,帮助我们更好地理解全球生物多样性分布。”
生物多样性研究的影响
这些影响非常重要。全球估计有20到30亿个标本,但只有一小部分已经数字化。没有数字记录和空间数据的支持,研究人员在追踪生物多样性丧失、理解物种在气候变化下的迁徙,以及分析生态系统变化时面临重大限制。
通过部署人工智能驱动的地理参考技术,科学家们可能很快能够快速数字化大量仍然难以获取的自然历史收藏。
谢说:“这项技术让我们能够打开那些目前还放在柜子里的数百万条记录。借助大型语言模型的强大能力,我们可以快速数字化植物标本数据,这对于应对全球环境挑战至关重要。”
传统的地理参考方法依赖于手动解释、专业软件或多次专家审核。北卡罗来纳大学的研究是首批将大型语言模型应用于此任务并且证明在准确性、效率和可扩展性上优于现有方法的研究之一。这种新方法让我们以往无法实现的速度来数字化自然历史收藏。
更多信息: 利用大型语言模型来解决自然历史藏品的地理标注瓶颈,自然植物(2025)。 数字对象标识符(DOI):10.1038/s41477-025-02162-y
热门跟贴