*点链接报名第九届“泰迪杯”数据挖掘挑战赛
源丨第八届“泰迪杯”数据挖掘挑战赛获奖作品
往期推荐
基于 BERT 深度语言模型的“智慧政务”文本挖掘应用(一)
1.4 本文的总体框架
本文的总体组织框架如下:
第1章 绪论
介绍“智慧政务”文本挖掘的意义和总体目标;介绍本文主要采用的深度语言模型 BERT 的原理;介绍本文的总体框架与主要创新点。
第2章 基于 BERT 模型的留言自动分类
首先,介绍该任务的目标与实验数据集; 第二,设计基于 BERT 模型的留言自动分类算法; 最后,对比分析 BERT 模型、LSTM 模型、FastText 模型在文本分类上的效果(各类的F1 值与整体的 F-scor e)。
第3章 基于语义相似度与 BERT 命名实体识别的留言热点问题挖掘
首先,介绍该任务的目标与实验数据集; 第二,基于 BERT 模型,将每条留言的语义向量与命名实体2(Named Entity)作为特征表示; 第三,利用基于图的 Affinity Propagatio (AP)聚类算法,实现留言的无监督自动聚类;
(1)原始的 BERT 中文模型,由谷歌公司在海量的中文维基百科数据上训练而成。
(2)命名实体(Named Entity)指文本中的人名、地名、机构名、时间等专有名词。 命名实体识别(NER)是自然语言处理领域的一项重要任务。
最后,对于每个聚类后的话题(问题),综合考虑话题时长、话题包含的留言数量; 每条留言的点赞数与反对数3项指标,设计话题热度评价体系并予以实现。
第4章 多特征融合的答复意见质量评价
首先,介绍该任务的目标与实验数据集; 第二,根据答复意见的长度、答复的及时性、关键词覆盖率、答复与留言的相关性、答复的专业性等 9 项特征指标,综合评价答复意见的质量。 最后,在程序上实现质量评价系统, 并进行效果分析。
第5章 结语 : 总结本文的工作,展望今后的改进方向。
1.5 本文主要的创新之处
(1)将语言智能领域最新的 BERT 深度模型应用于政务文本挖掘。 基于 BERT 的留言分 类模型明显优于前人的LSTM 模型与 Fasttext 模型。
(2)针对以往热点话题聚类模型健壮性(Robustness)差、效果不佳的问题, 提出了 利用命名实体识别(NER)任务增强留言区分度的策略,进而显著改善了留言无监督聚类的效果。
( 3)针对以往无监督聚类任务不知如何预设聚类数量的问题,采用了基于距离的 Affinity Propagation(AP,亲和力传播)的聚类算法。 使得自动确定聚类数量成为可能,节省了大量的试错成本。
(4)从内容丰富度、答复相关度、答复专业性、答复时效性等角度,提出了“9 项合一”答复意见质量的评测方法。 更加全面地反映了政府工作人员反馈群众留言的水平。
二、基于 BERT 模型的留言自动分类
2.1 任务介绍与实验数据集
该任务属于自然语言处理中的文本分类任务。 附件 2 包含了 9210 条群众在网 络平台上发 布的留言,分为城乡建设、环境保护、交通运输、教育文体、劳动和社会保障、商贸旅游、卫生计生共 7 类。 每条留言均包含留言主题、留言详情的 字段。 我们将数据集打乱顺序后,按照 8:1:1 的比例,分别划分训练集、验证集和测试集。 包括 BERT 在内的所有模型,均在相同的训练集、验证集上进行训练、调整超参数,并在相同的测试集上进行测试。
2.2 实验流程
在输入的文本方面,考虑到 BERT 模型允许单一文本的最长长度为 512 个字符,加之有 Sun(2019)[6]等人的相关实验表明,长文本截取前 512 个字符,已能在BERT 模型中取得理想的分类效果,我们拼接了每一条留言的主题文本与详情文本,截取前 512 个字符作为模型的输入。
在超参数设置方面,我们参考 Sun(2019)[6]等人在 BERT 上的文本分类经验,如下设置超参数:学习率 lr=2e-5,衰变因子 ξ=0.95。此外,训练遵循早停(early stopping)原则,当模型的损失在验证集上不再下降,就视为模型在验证集上已经收敛,可以停止训练。这能够有效地避免过拟合(Overfitting)问题,保证模型的泛化能力以及在测试集上的表现。
如 1.3 节所述,对于文本分类任务,BERT 模型提取顶层的符号[CLS]的特征向量 v(768 维),作为整个文本的特征表示,再后接一个 768*n 的全连接层(Fully- connected layer)W(n 为文本类别数),最后通过 softmax 函数归一化,输出一个文本分别属于各个类别c 的概率:
其中softmax函数:
在训练过程中,模型会调整全连接层 W 以及BERT 12 层模型的参数,使得每个文本的正确类别所对应的概率最大化。
图 2 BERT 模型在验证集上的损失变化图
如图 2 所示,当 BERT 模型在训练第 3 轮(epoch)时,在验证集上的损失开始上升。
图 3 BERT 模型在验证集上的 accuracy 随训练轮数的变化情况
图 3 关于 BERT 模型在验证集上的正确率(accuracy)变化情况也表明,在第 2 轮训练时,分类的正确率较前一次明显提升约 0.76%;但第 3 轮训练的accuracy 提升已不明显。因此,综合模型在验证集上的损失与正确率,根据早停(early stopping)原则,我们认为第 2 轮训练结束后的BERT 分类模型已经收敛,可以作为最终模型。
2.3 分类效果及其与其他模型的对比分析
最终收敛的BERT 模型在测试集上测试的结果如表 1 所示:
表 1: BERT 模型在测试集上的各类分类效果
为证明 BERT 模型在留言分类任务上的良好能力,我们将基于字向量的LSTM(Long Short-Term Memory)[7]和基于 Fasttext[8]的 2 个文本分类模型作为基线(baseline)模型,比较 BERT 与基线模型的效果。
LSTM 模型作为循环神经网络(RNN)的变种,是一种基于时间序列的链式结构。它克服了传统 RNN 模型梯度消失的缺陷,成为近年来 NLP 领域应用较广泛的特征提取器。我们使用的 LSTM 模型为加入了dropout 机制的通用改良版本[9]。dropout 机制能有效避免 LSTM 模型的过拟合问题。与基于 BERT 的文本分类模型类似,输入的文本经过 LSTM 隐层后,通过 softmax 归一化层,对 LSTM 隐层传递来的信息进行学习, 并计算出待分类文本属于各类别的概率[10]。
Fasttext 模型是 2017 年Facebook 公司 AI 团队提出的一种快速文本分类的模型。其基本架构如图 4 所示,它包含 3 个部分:input layer 输入层、hidden layer 隐藏层和output layer 输出层。首先;输入层的 x1,x2,…,xN−1,xN 表示一个文本中的N 个 n-gram 向量。其次,隐藏层将向量特征求和取平均,并采用单层神经网络学习。最后在输出层,通过一个线性分类器,输出一个文本分别属于各类别的概率[8]。
图 4 Fasttext 文本分类模型的基本结构
表 2: LSTM 与 Fasttext 模型的超参数设置情况
LSTM 和 Fasttext 模型超参数设置情况如表 2 所示。BERT 模型与上述两个基线模型均使用相同的训练、验证、测试集。
文本分类通用评价指标为查准率(Precision, P)、查全率(Recall, R)与 F1值。如表 3 所示,各模型在测试集上预测了每条留言所属的类别后,可以得到一个分类结果的混淆矩阵:
表 3 分类结果混淆矩阵
已知每一类的混淆矩阵后,该类的查准率、查全率如下两式计算:
F1 值综合了上述两个指标,是它们的调和均值:
如果要评测一个模型在综合的分类能力,可用F-Score 衡量:
其中 n 为类别数量,是第 i 类查准率;是第 i 类的查全率。我们先观察三个模型在测试集上的F1 值,如图 5 所示:
图 5 三个模型在测试集各类上的 F1 值对比
如图 5 所示,在 7 类留言文本中,BERT 在 6 类上的分类 F1 值均取得了最佳效果。仅在交通运输这一类上,Fasttext 的分类效果略优于BERT。
衡量各模型综合分类能力的F-score 分数如表 4 所示:
表 4 各分类模型的 F-score
可以看出,基于 BERT 的留言文本分类算法取得了最佳效果,其 F-score 高出LSTM 模型约 11.6%,也高出广泛应用的文本分类模型 Fasttext 约 1.8%。BERT 深度语言模型高达 92.89%的F-score 证明了它在政务留言文本分类任务上优越性与实用性。
(未完待续)
DIG MORE
LEARN MORE
量化投资
小白21天押金打卡 丨 零基础线上特训营 丨 初阶线上特训营 丨 多因子策略线上特训营 丨 线上分析实战研修班 丨 五一/暑假线下实训营
人工智能
云实习项目(机器学习预测方向)
数据挖掘
线上特训营
认证培训
AQF量化金融分析师 丨 CGFT特许全球金融分析师
热门跟贴