专利检索是专利行业的基础工作。申请前的查新、专利诉讼过程中的无效和现有技术抗辩、专利风险评估、专利全景地图或导航等这些专利行业的日常工作都离不开检索,甚至专利部门的流程和管理也都要时常去检索专利的状态、各种期限或者下载相关的官方文件。

专利检索是耗时耗力又需要很多技巧的事情,需要检索人员去理解技术,编辑检索式,最后从召回的检索结果中选择相关的专利。

多年来,业界都想利用AI去检索专利,很多企业也都做过尝试。大概的技术路线有这些种类。

一、建立分词库

收集大量的技术术语,建立一个分词库,用户输入一段内容后,例如输入如下这段内容:

一种体积小、结构紧凑、成本低廉的漏电、过载、短路保护模块,包括电磁脱扣开关和控制电路,其中电磁脱扣开关在绝缘罩壳内装有按头露出罩壳的复位按钮、双动触点摆臂组合、电磁铁、基板由上而下顺序排列,罩壳的顶部设有与复位按钮并列的轻触按钮,基板上电磁铁前后分别是双静触头触桥和双动触点排引出脚,通过控制电路检测到漏电、过载、短路信号同时控制L极(火线)和N极(零线)电路的断开,复位按钮按下接通的整个机件。

系统会用分词库中收集的分词对这些内容进行分词,比如把漏电、短路、电磁这些词汇分出来,与数据库进行匹配,把具有相关词组的专利找出来。

这种方法的优点是技术相对简单,但缺点是检索的质量非常依赖于收集的分词库,分词库越丰富,召回的结果就可能越准确。此外,由于检索依赖分词,现实中的词汇是很难穷尽的,还有很多近义词的问题,再好的分词,也容易造成漏检。完全依赖分词把专利检索做好是很难的。

2、语义搜索

这个检索的逻辑是训练一个向量模型(embedding),将所有的专利都转化向量,存入向量数据库,当用户输入一段技术方案后,也将用户输入的技术方案转化为向量,然后将用户输入的内容转化的向量,与数据库中存入的向量进行匹配,在数学计算向量的近似度。相当于把文本匹配的工作转化为计算机上的计算工作。这种检索方式的优点是快速,缺点是准确度很难保证,现有的开源模型很难满足专利检索的要求。专利检索的要求不仅仅是整体上相关就可以,而且要精确度要求非常高,涉及很多技术领域的细节比对。所以单纯的语义是很难满足时间当中的需求。

3、自动检索式

对于传统的专利检索来说,检索人员都是拿到检索方案之后,根据检索方案提取出关键检索要素,再对组成检索式。例如查找易清洗豆浆机的刀片,需要提取“易清洗”、“刀片”、“豆浆机”以及专利分类这些因素,然后将这些检索要素组合成各种检索式,再从数据库中查找。AI的做法就是模仿人类去写检索式,把各国审查员的检索式提取出来进行训练,训练好的模型模仿检索人员去写检索式,例如输入如下这段内容:

一种体积小、结构紧凑、成本低廉的漏电、过载、短路保护模块,包括电磁脱扣开关和控制电路,其中电磁脱扣开关在绝缘罩壳内装有按头露出罩壳的复位按钮、双动触点摆臂组合、电磁铁、基板由上而下顺序排列,罩壳的顶部设有与复位按钮并列的轻触按钮,基板上电磁铁前后分别是双静触头触桥和双动触点排引出脚,通过控制电路检测到漏电、过载、短路信号同时控制L极(火线)和N极(零线)电路的断开,复位按钮按下接通的整个机件。

系统会自动生成检索式如下:

打开网易新闻 查看精彩图片

Maxipat的AI检索式

模型会对这些检索式进行组合,检索人员也可以根据情况进行调整,直到检索式达到满意的效果。

4、基于Graph transformer的检索

前面说到的语义搜索有个天然的缺陷,语义搜索将用户输入的文字转化为向量,其实不是真正去理解这段内容,Graph transformer模型不仅仅是将内容转化为向量,还需要将输入的文字中的核心概念之间的关系梳理清楚,这样的时候不仅是内容的匹配,还有核心技术概念之间的关系匹配。相当于先理解用户输入的这段内容的关系,系统再去检索。这样检索的结果会更加准确。

打开网易新闻 查看精彩图片

Maxipat的GT搜索

综合下来,目前的检索效果是GT搜 > AI检索式 > 语义搜索 > 分词效果。当然在实践中,通常都是集中搜索方式组合,优势互补。从实测的效果来看,GT搜索在专利检索中的优势会越来越大。

Maxipat致力于作为成为科技创新和知识产权工作的AI加速,主要包括辅助创新:提高研发的科技创新效率,通过problem-solution算法深层关联到的真实技术方案,能够跨领域进行技术方案的深层挖掘和关联;智能搜索与分析:将专利搜索和报告制作借助AI实现智能化,包括智能查新、无效、FTO、Landscaping报告,采用GT搜索算法(graph transformer)(),系统真正做到理解概念后再搜索。目前开放注册中。

感兴趣的朋友可以通过以下三种方式填写申请信息:

1. 请发邮件到邮箱:info@maxipat.com

2. 点击文末阅读全文;

3. 扫描以下二维码

感兴趣的朋友可以加笔者微信patentlight

首例基因技术药物专利授权案牵动亿万产业