基于 BERT 深度语言模型的“智慧政务”文本挖掘应用（二）|向量|算法|聚类

*点链接报名第九届“泰迪杯”数据挖掘挑战赛

源丨第八届“泰迪杯”数据挖掘挑战赛获奖作品

往期推荐

基于 BERT 深度语言模型的“智慧政务”文本挖掘应用（一）

1.4 本文的总体框架

本文的总体组织框架如下：

第1章绪论

介绍“智慧政务”文本挖掘的意义和总体目标；介绍本文主要采用的深度语言模型 BERT 的原理；介绍本文的总体框架与主要创新点。

第2章基于 BERT 模型的留言自动分类

首先，介绍该任务的目标与实验数据集；第二，设计基于 BERT 模型的留言自动分类算法；最后，对比分析 BERT 模型、LSTM 模型、FastText 模型在文本分类上的效果（各类的F1 值与整体的 F-scor e）。

第3章基于语义相似度与 BERT 命名实体识别的留言热点问题挖掘

首先，介绍该任务的目标与实验数据集；第二，基于 BERT 模型，将每条留言的语义向量与命名实体2（Named Entity）作为特征表示；第三，利用基于图的 Affinity Propagatio （AP）聚类算法，实现留言的无监督自动聚类；

（1）原始的 BERT 中文模型，由谷歌公司在海量的中文维基百科数据上训练而成。

（2）命名实体（Named Entity）指文本中的人名、地名、机构名、时间等专有名词。命名实体识别（NER）是自然语言处理领域的一项重要任务。

最后，对于每个聚类后的话题（问题），综合考虑话题时长、话题包含的留言数量；每条留言的点赞数与反对数3项指标，设计话题热度评价体系并予以实现。

第4章多特征融合的答复意见质量评价

首先，介绍该任务的目标与实验数据集；第二，根据答复意见的长度、答复的及时性、关键词覆盖率、答复与留言的相关性、答复的专业性等 9 项特征指标，综合评价答复意见的质量。最后，在程序上实现质量评价系统，并进行效果分析。

第5章结语：总结本文的工作，展望今后的改进方向。

1.5 本文主要的创新之处

（1）将语言智能领域最新的 BERT 深度模型应用于政务文本挖掘。基于 BERT 的留言分类模型明显优于前人的LSTM 模型与 Fasttext 模型。

（2）针对以往热点话题聚类模型健壮性（Robustness）差、效果不佳的问题，提出了利用命名实体识别（NER）任务增强留言区分度的策略，进而显著改善了留言无监督聚类的效果。

（ 3）针对以往无监督聚类任务不知如何预设聚类数量的问题，采用了基于距离的 Affinity Propagation（AP，亲和力传播）的聚类算法。使得自动确定聚类数量成为可能，节省了大量的试错成本。

（4）从内容丰富度、答复相关度、答复专业性、答复时效性等角度，提出了“9 项合一”答复意见质量的评测方法。更加全面地反映了政府工作人员反馈群众留言的水平。

二、基于 BERT 模型的留言自动分类

2.1 任务介绍与实验数据集

该任务属于自然语言处理中的文本分类任务。附件 2 包含了 9210 条群众在网络平台上发布的留言，分为城乡建设、环境保护、交通运输、教育文体、劳动和社会保障、商贸旅游、卫生计生共 7 类。每条留言均包含留言主题、留言详情的字段。我们将数据集打乱顺序后，按照 8:1:1 的比例，分别划分训练集、验证集和测试集。包括 BERT 在内的所有模型，均在相同的训练集、验证集上进行训练、调整超参数，并在相同的测试集上进行测试。

2.2 实验流程

在输入的文本方面，考虑到 BERT 模型允许单一文本的最长长度为 512 个字符，加之有 Sun（2019）[6]等人的相关实验表明，长文本截取前 512 个字符，已能在BERT 模型中取得理想的分类效果，我们拼接了每一条留言的主题文本与详情文本，截取前 512 个字符作为模型的输入。

在超参数设置方面，我们参考 Sun（2019）[6]等人在 BERT 上的文本分类经验，如下设置超参数：学习率 lr=2e-5，衰变因子 ξ=0.95。此外，训练遵循早停（early stopping）原则，当模型的损失在验证集上不再下降，就视为模型在验证集上已经收敛，可以停止训练。这能够有效地避免过拟合（Overfitting）问题，保证模型的泛化能力以及在测试集上的表现。

如 1.3 节所述，对于文本分类任务，BERT 模型提取顶层的符号[CLS]的特征向量 v（768 维），作为整个文本的特征表示，再后接一个 768*n 的全连接层（Fully- connected layer）W（n 为文本类别数），最后通过 softmax 函数归一化，输出一个文本分别属于各个类别c 的概率：

其中softmax函数：

在训练过程中，模型会调整全连接层 W 以及BERT 12 层模型的参数，使得每个文本的正确类别所对应的概率最大化。

图 2 BERT 模型在验证集上的损失变化图

如图 2 所示，当 BERT 模型在训练第 3 轮（epoch）时，在验证集上的损失开始上升。

图 3 BERT 模型在验证集上的 accuracy 随训练轮数的变化情况

图 3 关于 BERT 模型在验证集上的正确率（accuracy）变化情况也表明，在第 2 轮训练时，分类的正确率较前一次明显提升约 0.76%；但第 3 轮训练的accuracy 提升已不明显。因此，综合模型在验证集上的损失与正确率，根据早停（early stopping）原则，我们认为第 2 轮训练结束后的BERT 分类模型已经收敛，可以作为最终模型。

2.3 分类效果及其与其他模型的对比分析

最终收敛的BERT 模型在测试集上测试的结果如表 1 所示：

表 1: BERT 模型在测试集上的各类分类效果

为证明 BERT 模型在留言分类任务上的良好能力，我们将基于字向量的LSTM(Long Short-Term Memory)[7]和基于 Fasttext[8]的 2 个文本分类模型作为基线（baseline）模型，比较 BERT 与基线模型的效果。

LSTM 模型作为循环神经网络（RNN）的变种，是一种基于时间序列的链式结构。它克服了传统 RNN 模型梯度消失的缺陷，成为近年来 NLP 领域应用较广泛的特征提取器。我们使用的 LSTM 模型为加入了dropout 机制的通用改良版本[9]。dropout 机制能有效避免 LSTM 模型的过拟合问题。与基于 BERT 的文本分类模型类似，输入的文本经过 LSTM 隐层后，通过 softmax 归一化层，对 LSTM 隐层传递来的信息进行学习, 并计算出待分类文本属于各类别的概率[10]。

Fasttext 模型是 2017 年Facebook 公司 AI 团队提出的一种快速文本分类的模型。其基本架构如图 4 所示，它包含 3 个部分：input layer 输入层、hidden layer 隐藏层和output layer 输出层。首先；输入层的 x1,x2,…,xN−1,xN 表示一个文本中的N 个 n-gram 向量。其次，隐藏层将向量特征求和取平均，并采用单层神经网络学习。最后在输出层，通过一个线性分类器，输出一个文本分别属于各类别的概率[8]。

图 4 Fasttext 文本分类模型的基本结构

表 2: LSTM 与 Fasttext 模型的超参数设置情况

LSTM 和 Fasttext 模型超参数设置情况如表 2 所示。BERT 模型与上述两个基线模型均使用相同的训练、验证、测试集。

文本分类通用评价指标为查准率（Precision, P）、查全率（Recall, R）与 F1值。如表 3 所示，各模型在测试集上预测了每条留言所属的类别后，可以得到一个分类结果的混淆矩阵：

表 3 分类结果混淆矩阵

已知每一类的混淆矩阵后，该类的查准率、查全率如下两式计算：

F1 值综合了上述两个指标，是它们的调和均值：

如果要评测一个模型在综合的分类能力，可用F-Score 衡量：

其中 n 为类别数量，是第 i 类查准率；是第 i 类的查全率。我们先观察三个模型在测试集上的F1 值，如图 5 所示：

图 5 三个模型在测试集各类上的 F1 值对比

如图 5 所示，在 7 类留言文本中，BERT 在 6 类上的分类 F1 值均取得了最佳效果。仅在交通运输这一类上，Fasttext 的分类效果略优于BERT。

衡量各模型综合分类能力的F-score 分数如表 4 所示：