近日,渊亭科技取得“一种基于先验知识图谱的智能抽取系统及方法”国家发明专利,针对目前信息抽取时技术跨领域适用性低、人工参与程度较高的问题,提出可充分利用既有知识的智能抽取方法。

随着近几年知识图谱应用场景的拓展,信息抽取成为一项重要的工作。但不论是命名实体的识别还是实体间的关系抽取,都面临着一些问题。例如人工打标的处理方式落后、抽取技术复杂度高、抽取流程繁琐。为了应对这些问题,行业中出现了一些行之有效的专项抽取技术,如电子病例命名实体识别技术,能够显著降低抽取难度、提升准确率。但仍然面临着跨领域适用性较低、无法进一步简化人工标注等问题。

为了更加全面有效地解决信息抽取的难题,渊亭科技提出《一种基于先验知识图谱的智能抽取系统及方法》专利,具备良好的跨领域适用性,能够便捷的对不同来源、不同结构的数据实现自动标注,有效提高知识抽取的效率与准确度

传统的信息抽取由于缺乏先验知识架构的设计,无法高效的利用历史知识、专家经验进行抽取和结果对比,且因抽取完整度有限,往往无法全面的构建实体、关系、事件的联系。本发明中的智能抽取系统以图谱技术为基础,高效的维护和利用先验知识开展抽取活动,期间无需人工标注,可有效节约人工成本,并具备较强的跨领域适用性,能针对不同领域的知识快速适配,形成抽取能力。

本发明可适用于融合复杂结构化数据和非结构化数据的实体、关系、事件抽取场景,通过良好维护的先验知识,可将文本中的实体信息元素、实体间的语义关系、文本中的事件信息从复杂的源数据中快速剥离并验证,可大幅降低知识抽取的工作量,有效提升知识抽取的效率。

在实践中,该专利在政务、公安反恐、工业制造等行业的数据信息抽取中可发挥较大作用。例如在政务领域的政策概念词条信息抽取中,利用被知识化的政策概念进行工作,可有效提升抽取效率,便于快速形成专业细分的政策词条及联系;在公安反恐领域的警情事件信息抽取中,利用事先累累积的知识化警情模式数据,也能够快速的抽取和组织事件及关系,加速警情知识图谱的构建。

渊亭科技不断加强核心技术的探索与实践,已构建多维的知识产权布局,截至目前拥有人工智能类发明专利和软著逾200项。未来将加快高质量专利培育,坚持与科技创新同频共振,为企业高质量发展提供动力源泉。

关于渊亭

渊亭科技成立于2014年,是认知决策智能先行者与领导者,在知识图谱、图计算、强化学习、机器学习(深度学习)等领域拥有核心技术优势与领先的工程化能力。渊亭聚焦国防、金融、政务、工业互联网四大行业,为客户提供决策中台、认知中台、数据中台三大中台产品与全栈AI+行业解决方案。以“连接万物、全景计算、认知推理、深度赋能”为企业使命。目前已服务了军委科技委、军委装备发展部、中国海军、中国陆军、战略支援部队、中国人民银行、建设银行、广发证券、中国登记结算、中国移动、中国铁塔等知名企业与政府机关。