这个最大的学术搜索引擎正在庆祝其20岁生日,但AI驱动的竞争对手提供了优势。
多年来,谷歌学术在科学文献搜索领域占据主导地位。
谷歌学术——最大、最全面的学术搜索引擎——本周迎来了20周年。一些研究人员表示,在过去的二十年里,这个工具已成为科学领域中最重要的工具之一。但是近年来,使用人工智能(AI)来改善搜索体验的竞争对手已经出现,还有一些允许用户下载数据的其他平台也出现了。
华盛顿大学西雅图分校的计算社会科学家杰文·韦斯特表示,谷歌学术——属于加利福尼亚州山景城的互联网巨头谷歌所有——对科学的影响是显著的,他每天都会使用这个数据库。“如果说有一刻谷歌学术可能被推翻作为主要的搜索引擎,那可能是现在,因为这些新工具和其他地方正在发生的创新。”韦斯特说。
西班牙格拉纳达大学的文献计量学研究员阿尔贝托·马丁·马丁表示,谷歌学术的许多优势——“免费访问、信息的广度和复杂的搜索选项”——“现在正被其他平台共享”。
像ChatGPT这样的AI驱动聊天机器人和其他使用大型语言模型的工具已经成为一些科学家在搜索、审查和总结文献时的首选应用。一些研究人员已经将谷歌学术换成了它们。新加坡管理大学的学术图书管理员亚伦·泰说:“直到最近,谷歌学术一直是我的默认搜索工具。”它仍然是他的首选,但“最近,我开始使用其他的AI工具”。
然而,考虑到谷歌学术的规模以及它在科学界的根深蒂固,“要取代它需要付出很多努力”,韦斯特补充说。
谷歌学术的联合创始人阿努拉格·阿查里亚表示,他欢迎所有使学术信息更易于发现、理解和建立在其上的努力。“我们所有人能做的越多,对科学的推进就越有利。”
最大且最广泛
谷歌学术于2004年进入文献搜索领域并改变了一切。当时,研究人员使用图书馆查找信息或通过付费在线服务如科学引文数据库Web of Science搜索学术论文。与谷歌学术同月推出的另一个付费服务是Elsevier的Scopus,这是一个庞大的科学参考文献和摘要数据库。
谷歌学术爬取网络以寻找任何类型的学术作品,如书籍章节、报告、预印本和网页文档——包括非英语语言的内容。目标是“使全世界的研究人员更有效,帮助每个人都能够站在科学的共同前沿”,阿查里亚说。
谷歌学术与出版商的协议使其拥有无与伦比的访问权限,可以获取付费墙后全文文章——而不仅仅是标题和摘要,这是大多数搜索引擎提供的。它根据与搜索查询的相关性对论文进行排名——通常将引用最多的文章放在顶部——并提出进一步的查询建议。它的覆盖深度促进了高度特定的搜索。
谷歌拒绝分享该服务的用法数据,但根据网站流量计量器Similarweb的数据,谷歌学术每月收到超过1亿次访问。
马丁·马丁表示,这个数据库也非常擅长指导人们找到文章的免费版本。这促进了开放获取运动,西班牙国家研究委员会高级社会研究院的文献计量学家何塞·路易斯·奥尔特加说。
但在其他方面,谷歌学术是不透明的。主要关注点之一是对其所搜索的内容缺乏了解,包括哪些期刊,以及它用于推荐文章的算法。它还限制批量下载其搜索结果,这些结果可用于文献计量分析等。“我们对科学中一个最有价值的工具没有太多了解,”韦斯特说。
阿查里亚说,谷歌学术主要是一个搜索工具,其主要目标是帮助学者找到最有用的研究。
更新的引擎
在过去几年中,出现了提供这种文献计量数据的竞争对手,尽管没有一家能击败谷歌学术的规模和对付费墙后全文文章的访问权。一个值得注意的例子是2022年推出的索引OpenAlex。前一年,微软学术图表因爬取网络上的学术信息而被停止运营,并且其整个数据集被释放。OpenAlex基于此以及其他公开来源的学术数据构建。用户可以按作者、机构和引用搜索其编目内容,也可以免费下载其全部记录。“他们正在做我们希望谷歌学术做的事情,”马丁-马丁说。
另一个受欢迎的研究工具,语义学者,于2015年推出,使用AI创建论文的可读摘要并识别其最相关的引用。另一个工具,共识,于2022年推出,依赖于语义学者的数据库来找到由研究支持的问题的答案(韦斯特是共识的顾问)。泰最喜欢的一个是Undermind,它使用更先进的基于代理的搜索,其中一个自主实体像人类一样扫描科学文献,根据它发现的内容调整搜索。与谷歌学术相比,它需要几分钟而不是几秒钟来输出结果,但泰说等待是值得的。“我发现返回的结果质量比谷歌学术更好。”
阿查里亚表示,谷歌学术也使用AI对文章进行排名、提出进一步的搜索查询和推荐相关文章。本月早些时候,该公司在其PDF阅读器中引入了AI生成的文章大纲。阿查里亚还表示,搜索工具尝试理解查询背后的意图和上下文。这种语义搜索方法基于语言模型,他说已经使用了大约两年。
谷歌学术尚未做的一件事是包含AI生成的概述或对搜索查询的回答,类似于现在典型的谷歌搜索顶部所找到的那些。阿查里亚说,以一种简洁并包含重要上下文的方式从多篇论文中概括结论是具有挑战性的。“我们还没有看到解决这一挑战的有效解决方案。”他说。
本文来自孙学军科学网博客。
链接地址:https://blog.sciencenet.cn/blog-41174-1460843.html
热门跟贴