TKDE 2025 | 北航提出SIHTC：通过结构熵&奇异值平滑方法缓解不均衡数据表征难题|北航|奇异值

本文介绍来自北航彭浩团队的最新科研成果——SIHTC框架。通过结构熵优化文本嵌入空间，利用树聚合网络（TAN）构建层次化编码树，结合奇异谱平滑正则化约束标签表示，采用双损失联合优化，有效缓解了传统提示学习方法在长尾数据下文本嵌入区分性不足和标签表示退化两大关键问题。在WOS、RCV1-v2和NYT三个主流层次文本分类数据集上，SIHTC全面超越HPT等十余种基线模型，尤其在尾部标签分类上优势显著。消融实验证实结构熵损失和奇异谱平滑正则化的核心贡献，超参分析显示模型对系数变化具有强鲁棒性，可视化结果直观展示了文本嵌入和标签嵌入的优化效果。

论文名称： Hierarchical Text Classification Optimization via Structural Entropy and Singular Smoothing 论文链接： https://ieeexplore.ieee.org/document/11036586 源码链接： https://github.com/SELGroup/SIHTC

一、动机

长尾数据普遍存在于许多领域，如关系分类、推荐系统、社交事件检测和链接预测等，受到越来越多的关注和研究。层次文本分类（HTC）作为多标签分类的重要任务，数据通常呈现长尾分布，其中头标签一般覆盖大部分文本，而尾标签覆盖较少的文本。基于提示学习（Prompt Tuning）的预训练语言模型已成为当前层次文本分类的主流方法（如图1(a)），但面对长尾数据分布时，现有方法如HPT[1]、DPT[2]等在尾部标签上的分类性能显著下降。这些方法虽然通过层次化模板设计提升了分类效果，但仍存在两大关键缺陷：文本嵌入缺乏对标签结构信息的有效利用，以及长尾标签的表示退化问题。

目前，层次文本分类模型面临以下 2 个主要挑战：

挑战 1：尾部标签的文本嵌入缺乏区分性。

由于训练样本的稀缺性，文本嵌入往往缺乏清晰性和尾部标签的可分性，导致分类过程中的混乱。现有的大多数HTC模型在学习文本嵌入时仅仅关注文本的语义信息，忽略了标签结构的指导作用。尽管Ji等人[3]尝试使用4种表面的标签关系来调节文本嵌入之间的距离，但对于HTC中复杂的标签结构，这种方法过于粗粒化。

挑战 2：长尾标签的表示受到退化的影响。

长尾标签会导致表示质量的显著下降，通常表现为嵌入矩阵的奇异谱的快速衰减。这些退化的嵌入缺乏丰富的特征和泛化能力，最终导致对尾部标签的分类性能较差。虽然目前的许多方法使用平均标记嵌入，Graphormer和GCN 等技术来生成标签嵌入，但它们的嵌入矩阵表现出奇异谱的快速衰减- -表明严重的表示退化。因此，迫切需要研究在保持嵌入保真度的同时，缓解这种退化问题的优化方法。

为解决以上问题，作者提出了一种新颖的基于结构熵和奇异谱平滑的层次文本分类优化方法 SIHTC( Hierarchical Text Classification Optimization Method via Structural Information and Singular Smoothing)。该框架由两部分组成：基于结构信息理论的文本嵌入优化和基于奇异谱平滑正则化的标签嵌入优化，如图1 ( b )所示。

图 1 现有的基于提示学习的HTC模型(a)和作者提出的SIHTC模型(b)的比较。

图 2 SIHTC整体框架图。( I )是提示学习HTC模型的框架。( II )和( III )是基于结构信息理论的文本嵌入优化。( IV )是基于奇异谱平滑的标签嵌入优化。

SIHTC框架包含两个主要优化模块：基于结构信息理论的文本嵌入优化模块和基于奇异谱平滑的标签嵌入优化模块。文本嵌入优化模块中，作者使用标签层次结构来指导文本嵌入的学习，首次利用结构信息理论对互文本关系进行建模，从而为文本嵌入注入标签结构信息。作者在每个层次上将文本嵌入与其对应的标签结合起来形成一个标签文本树；然后设计了一个树形聚合网络，将标签结构信息自底向上跨层传播，形成编码树；最后作者引入一个结构熵损失函数来最小化每棵编码树的结构熵。标签嵌入优化模块中，作者设计了一个奇异谱平滑正则化模块来缓解HTC长尾标签中的表示退化。该正则化包含全局奇异值平滑正则化和局部奇异值平滑正则化，全局损失为每个标签提供一个基础约束，而局部损失根据标签在层次内的位置分层地调整约束强度。

二、方法 2.1 提示学习模型

作者选择HPT [1]作为优化的基础模型，因为它是最有代表性的基于提示学习的HTC模型。图2 ( I )中说明了HPT的简化框架。具体来说，HPT使用深度为的标签层次结构，以[ ] [ ] [ ] [ ] ... [ ] [ ]的形式构建模板。然后，HPT将文本“ ”打包为“ ，模板"，并将其输入BERT进行MLM任务。对于一批文本，BERT在每个掩码位置输出最终的隐藏状态，这是SIHTC中的第一个优化目标，即文本嵌入。然后，HPT使用个不同等级的verbalizers [ ] [ ] ... [ ]处理文本嵌入，为每个文本生成分类结果。verbalizers的构成是SIHTC的第二个优化目标，即标签嵌入。

2.2 文本嵌入优化

作者设计了一个树形聚合网络来构建分层的二维编码树。接下来，作者引入结构熵损失函数，通过最小化编码树的结构熵来优化文本嵌入。这种方法有效地将标签结构信息注入到文本嵌入中。

树形聚合网络。树聚集网络( Tree Aggregation Network，TAN )旨在整合文本信息和标签结构信息，如图2 ( II )所示。在模型训练过程中，对TAN的输入包括标签层次结构、文本嵌入和真实标签。TAN的输出是一组二维编码树。TAN包含文本-标签树构建和层级间聚合两个步骤，其中第一步整合标签结构的层级内信息，第二步整合层级间信息。首先，作者给出了文本-标签树构建的具体步骤。给定一个深度为的标签集，作者构造了一个文本-标签树集。作者以为例介绍了文本编码树的构造细节。创建标签节点如下：

创建文本节点如下，根据真值标签，将文本节点添加为标签节点的子节点：

其中，是标签节点集合，是文本节点集合，是树的边集合，是文本的嵌入集合。

随后，作者给出了层级间聚合的具体步骤。具体来说，作者基于标签结构自底向上聚合了个文本标签树。作者以从到的聚合为例介绍了细节。首先将文本节点聚合为标签节点进行准备：

如果一个标签节点没有子文本节点，将其从标签节点集合中移除。然后，开始向上聚集到。具体来说，在中创建文本节点，对应于中的标签节点：

基于标签层次结构，将这些新创建的节点连接到它们的父节点:

至此，完成了从到的聚合。重复上述步骤，完成其他文本-标签树的聚合。聚合后的文本标签树看作二维编码树，这些编码树综合了文本信息和标签结构信息。

结构熵最小化。

作者通过设计结构熵损失函数来最小化二维编码树的结构熵，如图2 ( III )所示。作者以为例介绍了损失的设计。由于结构信息论是基于图的划分来定义的，因此对构造图如下：

其中，为图的邻接矩阵，为文本嵌入矩阵。作者提出了结构熵损失函数如下：

其中，为分配矩阵，若第个文本节点属于中的第个标签节点，则 = 1 。对中的每棵编码树计算损失，并将它们相加，从而得到整体的结构熵损失：

在模型训练过程中，随着的减小，更新和文本嵌入以获得更小的结构熵。同时，通过将文本嵌入包围在相关标签上，而将无关标签上的文本嵌入分离出来，优化了文本嵌入空间。

2.3 标签嵌入优化

HTC数据的长尾分布会导致标签嵌入中的表示退化，而这一点在之前的工作中被忽略。表征退化的一个表现是嵌入矩阵的奇异谱快速衰减，即最大奇异值明显大于其余奇异值。在文献 [4]的基础上，作者提出了奇异谱平滑正则化损失来优化HTC中的标签嵌入，如图2 ( IV )所示。这种损失包含两部分：一部分是宏观调控的全局损失，另一部分是分层适应的局部损失。

全局奇异谱平滑正则化损失。在这一部分中，作者将正则化约束统一应用于所有的标签表示。通过抑制最大奇异值和鼓励嵌入矩阵的奇异值之和，将奇异谱曲线从象征退化的快速衰减转化为更平滑的分布。损失表示如下：

在训练过程中，核范数的增加意味着奇异值总和的增加，而Frobenius范数的减少意味着最大奇异值的减少。

局部奇异谱平滑正则化损失。在HTC的标签层次结构中，位于不同位置的标签退化程度不同。直观上，更深深度的标签由于拥有更少的训练样本而遭受更严重的退化，使得它们的嵌入更难区分。因此，作者提出了个性化系数来区分不同层次标签之间的正则化约束。局部损失表示如下：

其中，为第深度的标签数，为总标签数，为对应于H的第i个深度的层次标签嵌入矩阵。个性化系数实现了两个目标：( 1 )对更深层次的尾部标签施加更多的正则化约束以抑制退化，对浅层标签施加相对较弱的约束以保留其丰富的信息；( 2 )对不同层次的标签数进行归一化处理。

因此，奇异值平滑正则化损失是上述两个分量之和。在形式上，

2.4 目标函数

通过最小化文本嵌入的结构熵，对标签嵌入进行奇异谱平滑，最终最小化的目标损失函数定义如下：

其中是基于提示学习的HTC模型的损失函数，是控制文本嵌入优化权重的超参数，是控制标签嵌入优化权重的超参数。

三、实验

为验证 SIHTC 的有效性，作者在 WOS，RCV1，NYT 三个基准数据集上（详见表1），与四个层次感知模型、两个预训练的语言模型、两种基于结构熵的模型、两个提示学习预训练语言模型等基线模型进行对比实验，采用 Macro - F1和Micro - F1指标评估分类性能，并通过消融实验、长尾实验、超参数敏感性实验、案例研究、计算成本研究深入分析SIHTC性能。

表 1 数据集的统计信息。

SIHTC在三个数据集上都优于基准模型HPT，并且除了在RCV1 - v2数据集上的Macro - F1外，SIHTC超过了所有先进的基准模型。作者选取了一系列属于单路径标签的样本，并对它们的文本嵌入进行可视化，以直观地展示结构熵损失在文本嵌入上的有效性，与HPT相比，SIHTC训练得到的嵌入具有更清晰的聚类边界和更好的判别能力（详见图3）。作者将三个数据集中的标签嵌入可视化，以直观地展示奇异谱平滑正则化损失的有效性。与HPT相比，SIHTC对应的曲线更平滑，具有更大的曲线下面积（详见图4）。SIHTC训练的标签嵌入，特别是尾部标签，有效地避免了退化（详见图5）。

表 2 三种数据集上不同方法的对比。最佳结果用粗体表示，次佳结果带下划线。

图 3 文本嵌入的2D可视化。不同的颜色代表属于不同标签的文本。

图 4 标签嵌入的奇异谱曲线。阴影代表曲线下面积。

图 5 标签嵌入的可视化。红色和蓝色分别表示HPT和SIHTC的结果。

作者在3个数据集上进行了消融实验，去除后观察到的性能下降强调了其在捕获层次结构依赖方面的有效性，这对于学习具有语义意义和判别性的文本嵌入至关重要，去除后的性能下降表明，在没有光谱平滑的情况下，标签表示往往退化- -特别是削弱了尾部标签的区分度，在去除后观察到的分类性能下降表明，这种个性化方法有效地增强了正则化的影响。（详见表3、表4）

作者探究了SIHTC在尾部标签上的分类性能，这两种损失从文本嵌入和标签嵌入的角度促进了稳健的尾部标签分类，两者相辅相成。（详见图6）作者评估了新引入的权重超参数对SIHTC性能的影响。（详见图7）作者在三个数据集上进行了案例研究，以探索SIHTC的实际优化效果，（详见表5）由于SIHTC增强了文本嵌入的表示能力和标签嵌入的泛化能力，它可以有效地召回丢失的标签，去除过多的标签，并从HPT的错误中纠正误判的标签。作者在批处理大小为32的3个数据集上比较了SIHTC与基模型HPT的计算成本，SIHTC没有引入额外的训练参数，并且保持了与HPT相似的评估时间。（详见表6）

表 3 SIHTC的三种损失函数在Micro - F1上的消融研究。

表 4 SIHTC对Macro-F1三种损失函数的消融研究。

图6在三个数据集的尾部标签上的分类分数。

图 7 超参数敏感性实验结果。

表 5 3个数据集的实例分析。在数据集中提供了每个文本的索引( WOS和RCV1 - v2)或名称(《NYT》)。对HPT预测的错误标签和SIHTC做出的更正进行加粗。值得注意的是，SIHTC预测的标签与真实标签完全相同。

表 6 HPT和SIHTC在三个数据集batch 32上的计算成本统计。四、结论

作者提出了一种新颖的基于结构熵和奇异谱平滑的HTC优化框架SIHTC，有效地处理了长尾数据和复杂的标签层次结构。首先，通过树聚集网络和结构熵损失函数最小化标签层次内文本的结构熵，为文本嵌入注入标签结构信息，提高文本嵌入的区分度。其次，作者平滑了标签嵌入矩阵的奇异谱，以减轻标签表示退化并增强泛化能力，特别是对尾部标签。在三个数据集上的实验表明，SIHTC优于所有基线，并提高了尾部标签分类性能。

篇幅原因，我们在本文中忽略了诸多细节，更多细节可以在论文中找到。感谢阅读！

参考文献

[1]Z. Wang, P. Wang, T. Liu, B. Lin, Y. Cao, Z. Sui, and H. Wang, “Hpt: Hierarchy-aware prompt tuning for hierarchical text classification,” in Proceedings of the EMNLP, 2022, pp. 3740–3751.

[2]S. Xiong, Y. Zhao, J. Zhang, L. Mengxiang, Z. He, X. Li, and S. Song, “Dual prompt tuning based contrastive learning for hierarchical text classification,” in Findings of the ACL, 2024, pp. 12 146–12 158.

[3]K. Ji, Y. Lian, J. Gao, and B. Wang, “Hierarchical verbalizer for fewshot hierarchical text classification,” in Proceedings of the ACL, 2023, pp. 2918–2933.

[4]Z. Fan, Z. Liu, H. Peng, and P. S. Yu, “Addressing the rank degeneration in sequential recommendation via singular spectrum smoothing,” arXiv preprint arXiv:2306.11986, 2023.

llustration From IconScout By Navved Hassain

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线600+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。