一种基于机器学习的自动文档标签图谱技术|知识库|算法

【工业软件学习营】第一期第3讲

【工业软件学习营】总第53讲，于2021年3月19日如期举行，本期讲师是瑞风协同技术总监，具有20余年软件开发和架构设计经验，参与多个领域的设计仿真平台、材料库、知识库系统建设，重点研究方向为大数据技术和人工智能技术，专注于文本挖掘技术、自然语言处理技术在知识库自动构建、知识自动分类、知识智能推送、知识关联挖掘、知识图谱方面的应用研究。

本期课程重点分为以下四个方面：知识图谱技术发展趋势、基于机器学习的标签图谱技术思路、关键技术分析、典型应用案例分享。

一、知识图谱技术发展趋势

1. 知识图谱

（1）定义

知识图谱：是一种规模非常大的语义网络系统，是海量文本知识挖掘最常见的手段之一。知识图谱旨在描述真实世界中存在的各种实体或概念及其关系，一般用三元组表示。知识图谱亦可被看作是一张巨大的图，节点表示实体或概念，而边则由属性或关系构成。

（2）发展历程

知识图谱的发展分为起源、发展、繁荣三个阶段。

（3）应用

目前，知识图谱在金融、医疗、教育、司法等多个行业领域广泛应用。

• 金融行业：反洗钱、反欺诈等

• 医疗行业

• 教育行业

• 司法：知识图谱在司法中能解决证据索引、类案推送、结果预判、证据分析、文书生成和智慧调解

（4）重要作用

知识图谱具有获取、表示和处理知识的能力，是人类心智区别于其它物种心智的重要特征，且已成为推动机器基于人类知识来获取认知能力的重要途径，并将逐渐成为未来智能社会的重要生产资料。

知识图谱是人工智能的基石，包括感知层与认知层。知识图谱推动人工智能的应用，是强人工智能发展的核心驱动力之一。

（5）知识图谱的特点

• 特点：

√ 适用范围：面向文本知识和数据

√ 数据方面：要求具备一定的数据量

√ 知识内容：对知识的宽度、深度有要求，视具体业务情况

√ 要求数据标注：机器学习的前提，越多越好

√ 需要业务专家评估结果的准确性

√ 通用性较差：不同行业效果差异很大

√ 技术复杂：涉及业务、信息、网络、人工智能、算法、图形和大数据等多个方面

2. 知识图谱面临多方面的挑战

（1）数据方面的挑战：多源数据的歧义多、噪声大，数据关联性不明确

（2）算法挑战：现有算法知识抽取准确性、算法性能和算法可解释性的挑战(各行业不一样)

（3）基础知识库的挑战：知识库融合、垂直领域知识库构建、基础知识库不开放

（4）开发工具的挑战：全生命周期平台的缺失、算法工具专家间人机协同需要提升、基于文本的知识图谱构建工具性能弱、跨语言语系的挑战、知识图谱中间件缺乏

（5）隐私、安全方面的挑战

（6）测试认证方面的挑战

（7）商业模式与人才相关的挑战

（8）标准化方面的挑战

3. 工业领域文档知识特点

知识图谱在通用领域得到广泛的应用与发展，但在工业领域的应用却不是很多，这与工业领域的行业特点、专业性、保密性和复杂性有关。

（1）原始文档知识数据庞大、格式繁多：知识获取很复杂、技术难度高、成本高、时间长

（2）年增长速度很快、存储分散

（3）专业性太强：与具体的场景关联很强

（4）公开的工业知识库很少

（5）保密性强：知识传播、共享有限制

（6）专业学科多，知识应用复杂：通用性不强，成本高

4. 工业领域知识图谱面临的问题

与传统通用领域不同，工业领域的知识图谱在知识获取、知识应用方面存在较大的困难，总结起来主要有以下几点：

• 工业知识获取技术难度高、投入大、周期长

• 小批量、小样本下的知识图谱如何生成

• 知识图谱的准确度问题

• 与结构化数据的知识融合问题

• 缺乏标准化的知识图谱平台：任意扩展算法、语种、专业学科

• 自主可控问题

二、基于机器学习的标签图谱技术思路

1. 标签的定义与意义

（1）标签定义：是知识内容高度抽象、高度概括的具现化，是知识某个维度的特征。它具有丰富的含义和内涵，内容简单、明了。

（2）标签作用：分类、快速查找、快速了解、用户画像、产品画像……

（3）标签在工业领域中的意义：

• 具备常规标签功效和能力

• 专业性：专业术语、词汇、主题……

• 是工业知识图谱基于知识运维模式的重要方法之一：标签可以认为是关键词、主题、事件

2. 标签应用

标签应用：非常广泛，比如知识分类、信息关联、用户画像、产品画像、数据统计挖掘等。以客户管理为例，客户管理是制定六大目标的相关标签体系，可以实现精确客户营销，产生最大客户价值。

3. 标签体系构建方法

（1）三大原则：

• 放弃大而全的框架，以业务场景倒推标签需求

• 标签生成自动化，解决效率和沟通成本

• 有效的标签管理机制

（2）建立一个完整的标签体系需要注重四点：

4. 标签示例

电商标签体系示例

知识三维标签体系示例

5. 基于标签图谱的技术思路

（1）思路重点：标签代替实体

（2）影响准确度的因素：

• 预处理结果质量

• 标签实体识别

• 关系抽取

• AI算法优化

• 业务协同程度

（3）基于知识运维的知识图谱特点：原始数据少、通过迭代逐步丰富数据、通过迭代校正图谱中的错误、逐步把专家头脑中的知识挖掘出来，特别注重人机协同。

三、关键技术分析

1. 智能标签技术

（1）技术要点：基于人工智能算法，从单个文档里提取若干个内容特征词作为文档的内容标签

（2）标签目的：为下一步内容标签实体处理、标签实体关系和标签应用提取做准备

（3）专业要求：

• 提供专业词汇库、术语库、近义词/同义词库可以提高专业性(必填项)

• 通过预设标签和编码，可以规范标签名称，缩小标签范围

• 通过预设关联词之间的关系和权重，可以精确语义理解，消除二义性

• 通过人工标注，可以提高准确性(可选项)

• 在标签使用过程中，可以人工纠错(类似人工标注，小样本知识图谱常用的手段)

2. 标签关系抽取技术

• 常规知识图谱要素：实体、关系、方向

• 标签知识图谱要素：与常规知识图谱类似

√ 标签=实体

√ 关系：按常规方法抽取

√ 方向：按常规方法抽取

√ 标签图谱类似关键词图谱、主题图谱

√ 自动化：辅以人工标注(工作量小、简单)

3. 标签图谱存储与可视化技术

• 图谱结构：三元关系，即对象A-关系-对象B

• 图谱存储：RDBMS数据库或图数据库

• 图谱检索：以标签为基础，也可以是一段文字

• 可视化：ECHART图表等，与具体的图谱数据没有直接关系，扩展能力强

四、典型应用案例分享

1. 基于试验知识文档的标签知识图谱需求

• 背景：

在某试验单位试验设计师的工作电脑上，存放着多年与试验相关的参考文档。虽然已对其进行初步分类，整理成多个分件夹和子文件夹，但有些文件夹下文档比较多，而有些文件夹下仅有一个文档，同时每年都在不停地更新，这会造成使用时的不便，我们可以将其归纳为以下几点主要问题：

√ 麻烦：每次查找资料时不能一下全部找到，需要按文件夹逐层往下找

√ 效率低：每次查看文档时，必须要打开文档大概看一遍，才知道里面是否有想要的内容

√ 专业性不精确：与试验相关的资料越来越多，专业性越来越强，文件夹命名已不能体现文档的内容

√ 信息孤岛现象严重：想要的内容分散在不同的文档里，不能在多个文档中快速找到想要的内容

• 需求：提供一个工具或方法，能快速解决上述问题

2. 试验参考文档分析

（1）源文档分析

• 文档总数：3500多篇

• 目录个数：82个

• 二三级目录有不少

• 多种文件格式：WORD、PDF、TXT

• 涉及专业比较宽：试验、大数据、云计算、试验件、试验方案和试验报告等

• 试验相关的文献占一半左右

（2）试验类文档分析

• 业务类：31个目录，647个文献

• 数据类：11个目录，982个文献

• 文档分布不均：有的多，有的少

（3）技术思路

• 总体思路：采用基于机器学习的自动文档标签图谱技术来解决

• 理由：

√ 文档覆盖面比较宽，但细分类的文档数量太少，最少的仅有一篇文档，不适合大规模知识图谱技术

√ 文档在不断更新，但更新的数量不会很多

√ 使用者是业务专家，有足够的资历、能力来协助工人智能自动打标签、生成知识图谱

√ 使用者可以随时纠正图谱中的错误

• 主要步骤：

√ 文本预处理

√ 知识文档语义化

√ 智能自动打标签

√ 校正智能标签准确性

√ 自动标签图谱

√ 校正标签图谱的准确性

• 预处理要点与结果展示：

√ 必须把文档里的图片、表格单独抽取出来做特殊处理

√ 注意论文竖排版面格式

√ 表格里的数据需要单独处理

3. 试验知识文档智能标签

智能自动标签：预设标准化的试验标签与编码，由人工智能根据文档内容来决定对标预设的标签，通过多种标签提取算法综合分析来决定合适的标签(默认前10个)。在试验专业术语、词汇、同近义词辅助下，准确率高达90%以上。

4. 试验标签知识图谱

（1）图谱生成

基于中文语法、词性和句子成分，采用先进、成熟的标签实体关系抽取算法来抽取关系，标签实体构成图谱“三元”关系。

地面模型试验图谱示例

（2）准确性提升

• 试验数据方面：

√ 试验辅助词库：专业术语、同义词、近义词、关联词

√ 二义性消除：通过关联词权重规则

√ 扩大关联词范围：人工给出小部分，大部分由人工智能给出，然后由人工确定是否选用为关联词

√ 通过专业工具对两竖排排版的文献进行单独处理

• 技术方面：

√ 选用多种算法综合比较分析，择优选择标签并排序

√ 辅助人工标注、学习，提升准确性

如果您对我们的课程感兴趣，欢迎加微信rf13811298796进行听课！

一种基于机器学习的自动文档标签图谱技术

热搜

热门跟贴

热搜

热门跟贴

相关推荐

俄罗斯强烈抗议日本计划在俄边界附近军演

创新者因计算而相遇，《麻省理工科技评论》中国正式发布“2023年中国智能计算创新人物”

他们掏空积蓄投资的古镇，黄了

胡友平家属通过《苏州日报》衷心感谢社会各界关心慰问

秦始皇

菲嘉宾在华哽咽:菲有9个美军基地 我不想国家沦为战场

Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉

西安交大的瓜！毕业典礼，那位美貌与智慧并存的校花翻车了？

钟南山院士再发声：呼吁无偿献血，网友：献血要1200块钱挂号费？

秘不发丧！碧桂园正式清零

“祸不单行”的理想，还有一手“绝招”？

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

全美TOP 5机器学习博士：痛心，实验室H100数量为0！同实验室博士用GPU得靠抢

我的立场就是不当肉喇叭，不唱赞歌

一哄而上，打不赢美国高科技

英国团队用AI模型寻找失踪人员，成功率达19%，训练数据来自苏格兰高地

获表彰三年后，这些全国优秀县委书记已升任重要岗位

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale开源

卡梅伦接"乌前总统"电话上头条：谈俄乌问题 怒斥美国

菲嘉宾在华哽咽:菲有9个美军基地我不想国家沦为战场

卡梅伦接"乌前总统"电话上头条：谈俄乌问题怒斥美国