打开网易新闻 查看精彩图片

多年来,Google Scholar 一直主导着科学文献搜索。图片来源:IB Photography/Alamy

谷歌学术搜索是全球最大、最全面的学术搜索引擎,本周迎来了 20 周年。一些研究人员表示,在过去的 20 年里,该工具已成为科学界最重要的工具之一。但近年来,使用人工智能 (AI) 来改善搜索体验的竞争对手纷纷涌现,其他竞争对手也允许用户下载其数据。

西雅图华盛顿大学的计算社会科学家杰文·韦斯特 (Jevin West) 每天都在使用 Google Scholar 数据库,他表示,Google Scholar 对科学界的影响是惊人的。Google Scholar 由位于加利福尼亚州山景城的网络巨头谷歌所有。但“如果有一天 Google Scholar 的主要搜索引擎地位会被推翻,那可能就是现在,因为一些新工具和其他地方正在发生的一些创新,”韦斯特说。

西班牙格拉纳达大学文献计量学研究员 Alberto Martín Martín 表示,Google Scholar 的很多优势(免费访问、信息广度和复杂的搜索选项)“现在正被其他平台所共享”。

人工智能聊天机器人(例如 ChatGPT)和其他使用大型语言模型的工具已成为一些科学家在搜索、审查和总结文献时的首选应用程序。一些研究人员已经用它们取代了谷歌学术搜索。新加坡管理大学的学术图书管理员 Aaron Tay 说:“直到最近,谷歌学术搜索还是我的默认搜索工具。”它仍然是他的首选,但“最近,我开始使用其他人工智能工具”。

不过,考虑到谷歌学术的规模及其在科学界的根深蒂固的地位,“要推翻它的地位还需要付出很大努力”,韦斯特补充道。

谷歌学术联合创始人安努拉格·阿查里亚表示,他欢迎所有旨在使学术信息更易于查找、理解和利用的努力。“我们能做的越多,对科学的进步就越有利。”

最大、最广

2004 年,Google Scholar 进入文献搜索领域,从此改变了一切。当时,研究人员通过访问付费在线服务(如科学引文数据库 Web of Science)来使用图书馆查找信息或搜索学术论文。与 Google Scholar 同月推出的另一项付费服务是 Elsevier 的 Scopus,这是一个大型科学参考文献和摘要数据库。

Google Scholar 会抓取网络上各种学术成果,例如书籍章节、报告、预印本和网络文档,包括非英语语言的论文。Acharya 表示,其目标是“让全世界的研究人员更加高效,让每个人都能站在科学的共同前沿”。

Google Scholar 与出版商达成的协议使其能够无可匹敌地访问付费墙内文章的全文,而不仅仅是标题和摘要,而大多数搜索引擎都提供这些内容。它根据论文与搜索查询的相关性对论文进行排名,通常会将引用次数最多的文章放在最前面,并建议进一步查询。其覆盖范围的深度有助于实现高度精准的搜索。

谷歌拒绝分享该服务的使用数据,但根据网络流量测量仪 Similarweb 的数据显示,Google Scholar 每月的访问量超过 1 亿次。

马丁·马丁说,该数据库还非常善于向人们推荐文章的免费版本。科尔多瓦西班牙国家研究委员会高级社会研究所的文献计量学家何塞·路易斯·奥尔特加说,这促进了开放获取运动。

但在其他方面,Google Scholar 并不透明。主要问题之一是缺乏对它搜索的内容(包括期刊)以及它推荐文章的算法的了解。它还限制批量下载搜索结果,而这些结果可用于文献计量分析等。West 说:“我们对科学界最有价值的工具之一了解不多。”

Acharya 表示,Google Scholar 主要是一个搜索工具,其主要目标是帮助学者找到最有用的研究成果。

更新的引擎

过去几年,一些竞争对手也开始提供此类文献计量数据,但没有一家能超越谷歌学术的规模和付费墙后的全文访问。一个值得注意的例子是 2022 年推出的 OpenAlex 索引。前一年,用于爬取网络学术信息的 Microsoft Academic Graph 已停止使用,其整个数据集已发布。OpenAlex 以此和其他开放学术数据源为基础。用户可以按作者、机构和引文搜索其分类的内容,也可以免费下载其全部记录。“他们正在做我们希望谷歌学术做的事情,”马丁-马丁说。

另一种流行的研究工具是 2015 年推出的 Semantic Scholar,它使用人工智能创建可读的论文摘要并确定最相关的引文。另一种工具是2022 年推出的Consensus,它依靠 Semantic Scholar 的数据库来寻找研究问题的答案(West 是 Consensus 的顾问)。Tay 最喜欢的工具之一是Undermind,它使用更复杂的基于代理的搜索,其中一个自主实体以人类的方式扫描科学文献,并根据找到的内容调整搜索。它需要几分钟(而不是谷歌学术搜索的几秒钟)才能显示结果,但 Tay 说等待是值得的。“我发现返回的结果质量比谷歌学术搜索更好。”

Acharya 表示,Google Scholar 还使用 AI 对文章进行排名、建议进一步的搜索查询并推荐相关文章。本月早些时候,该公司将 AI 生成的文章大纲引入了其 PDF 阅读器。Acharya 还表示,搜索工具会尝试理解查询背后的意图和上下文。他说,这种语义搜索方法基于语言模型,已经使用了大约两年。

Google Scholar 尚未实现的一件事是包含 AI 生成的搜索查询答案概述,类似于现在在典型 Google 搜索顶部找到的答案。Acharya 表示,以简洁的方式总结多篇论文的结论并包含重要背景是一项挑战。“我们还没有看到解决这一挑战的有效方法,”他说。

阅读最新前沿科技研究报告,欢迎访问欧米伽研究所的“未来知识库”

打开网易新闻 查看精彩图片

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。

截止到10月25日 ”未来知识库”精选的100部前沿科技趋势报告