IBM研究中心(IBM Research)的深度搜索产品使用自然语言处理(NLP)来“收集和分析大量结构化和非结构化数据”。多年来,从Covid-19研究到分子合成,“深度搜索”(Deep Search)被广泛用于科学领域。现在,IBM Research通过发布Deep Search for scientific Discovery (DS4SD:科学发现深度搜索),将部分产品开源,从而简化了深度搜索的科学应用。

打开网易新闻 查看精彩图片

DS4SD包含了针对文档转换和处理的深度搜索的特定功能。首先是深度搜索体验,这是一个文档转换服务,包括拖放界面和交互式转换,并包含质量检查。DS4SD的第二个部分是深度搜索工具包(Deep Search Toolkit),这是一个Python包,它允许用户通过将工具包指向一个文件夹“以编程方式批量上传和转换文档”,然后该文件夹的内容将被上传并从pdf文件转换为更“容易破译”的JSON文件。该工具包集成了现有的服务,同时IBM Research欢迎开发者社区都能够利用该开源工具包并作出自己的贡献。

IBM Research将DS4SD描述为处理非结构化数据的福音。这些数据对科学研究具有“很大价值”;作为例子,他们引用了IBM自己的Photoresist项目,该项目在2020年使用“深度搜索”技术,梳理了6000多项专利、文件和材料数据表,以寻找一种新的分子。IBM Research表示,与人工选择相比,Deep Search可提供高达1000倍的数据获取速度和高达100倍的数据筛选速度。

打开网易新闻 查看精彩图片

DS4SD的发布紧随在今年3月发布的GT4SD (科学发现生成工具包)之后。GT4SD也是一个开源库,用于加速科学发现的假设生成。

DS4SD和GT4SD共同构成了IBM Research所称的加速发现开放科学的第一步。IBM研究中心表示,未来还会有更多的新功能,比如将通过DS4SD提供 “人工智能模型和高质量数据源”。深度搜索还增加了“超过3.64亿”的公共文件(如专利和研究论文)供用户在他们的研究中使用——这与之前需“自带数据”的工具性质相比是一个很大的改变。