AAAI 2025 | 中山大学提出AIQViT：面向视觉Transformer的结构感知后训练量化方法|aiqvit|中山大学|实验|有效性|量化器

训练后量化（PTQ）已成为降低 Vision Transformers（ViTs）存储和计算成本的重要方法之一。现有方法主要聚焦量化器的设计来处理 ViTs 中的激活值，然而这些方法低估了权重量化带来的信息损失，导致性能退化，特别是在低比特量化情况下。

此外，这些方法大多采用对数变换来量化 ViTs 中的 Softmax 层激活，然而对数变换优先考虑零附近信息量较小的值，引入了额外的冗余，限制了方法的量化效率。

为了解决这些问题，本文提出了一种针对 ViTs 的 PTQ 方法，称为 AIQViT。首先，我们设计了一种架构感知的低秩补偿机制，引入了可学习的低秩权重来补偿权重量化引起的性能下降；其次，我们设计了一个动态聚焦量化器来适应 Softmax 层激活的不平衡分布，该量化器动态选择最有价值的区间以获得更高的量化分辨率。

我们在五个视觉任务（包括图像分类、目标检测、实例分割、点云分类和点云组件分割）上对所提方法的有效性进行了验证。论文信息如下：

论文题目： AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers 论文链接： https://arxiv.org/abs/2502.04628

一、准备知识（Preliminaries）

ViT

ViT 主要由嵌入层和一些堆叠的 ViT 网络块组成，有助于捕捉隐藏在不同图像块中的长距离关系，在一个网络块中，其运行机制如下：

其中 MHSA 代表多头注意力机制，MLP 代表多层感知机网络。

量化器

均匀量化器得益于其良好的硬件兼容性，从而被广泛使用，其定义为：

其中表示输入浮点数，表示量化后的整数，代表量化尺度，表示量化原点。

低秩自适应

低秩自适应（Low-Rank Adaptation, LoRA）是一种在大语言模型参数高效微调领域广泛使用的技术，其可以表示为：

其中 B 和 A 为两个低秩矩阵，在微调过程中只需要对 B 和 A 进行更新，其具有参数量小、训练成本低的特点。

二、方法（Method）

结构感知低秩补偿机制

与 CNN 不同，ViT 由大量全连接（FC）层组成，这需要大量的计算和存储资源。然而，由于 ViT 的架构更为复杂，直接对这些层进行权重量化可能会导致关键信息的丢失，从而导致量化模型泛化能力下降。

为了解决这个问题，为 FC 层引入了一些可学习的权重来补偿信息丢失。这些可学习的权重具有低秩的特点，有效地降低了优化成本，同时防止了可能由有限数据引起的过拟合。低秩补偿过程可以定义为：

其中，我们保持在训练时不被更新，而以以下方式更新 B 和 A：

其中，表示在第 t 次迭代时用以第 l 个网络块训练的数据。鉴于低秩权重在训练时可被更新，从而鼓励量化模型学习与量化兼容的参数空间，并且显著减轻了权重量化引起的重建误差，而不会产生大量优化开销。

此外，在训练过程中，我们发现低秩矩阵的秩 r 对最终量化效果有着显著的影响，收到神经网络结构搜索的启发，我们设计了一种自动搜索得到 r 的方式。具体来说，首先给定候选低秩 r 的集合，对于全连接层，前向传播的过程定义为：

其中是可学习的参数，代表着每个候选结构的重要性，表示drop-path操作。同时，我们把矫正数据集划分成和，并定义优化过程如下：

上述优化问题可以使用近似结构梯度进行求解，完成求解后，最优的秩可被确定为。上述过程如图 1 所示。

图1. 结构感知低秩补偿机制示意图动态注意力量化器

如图 2（a）所示，Softmax 层后的激活分布呈现出及其不平衡的分布，从而对量化造成了挑战。

之前的工作多是采用基于 log2 的变换，即首先对激活进行变换然后对变换后的值进行量化，这种方法存在着如下局限性：靠近 0 的值往往具有较大的量化分辨率，但靠近 0 的值往往包含有更多的背景噪声，这影响了量化的效率；此外，log2 量化器为每一层保持固定的间隔，这可能不是最佳解决方案。

基于上述分析，我们设计了一种动态注意力量化器（DFQ）动态地选择最有价值的量化区间，并为该量化区间赋予更高的量化分辨率，其具体形式为：

其中为可学习的量化区间。通过动态选择和，DFQ 将关注最有价值的区间，并相应地优先赋予更多比特。对于区间以外的值，DFQ 直接对其截断，对于区间内的值，DFQ 采用通用的均匀量化器，这不仅提升了量化效率，还避免了复杂的对数运算，降低了量化的运算开销。

图2. (a) DeiT-T中第一个MHSA模块Softmax激活后的直方图；(b) log2量化器（蓝色）和DFQ（橙色）；(c) 在ImageNet上使用W3/A3量化的结果。优化策略

受课程式学习启发，在优化目标参数时，本文使用一种“先易后难”的优化策略，在第 t 次迭代时，训练数据为：

其中 λ(t) 控制在第 t 次迭代时选取样本的比例，在本文中，我们采取一种线性方式：

其中表示初始样本选择比例，T 表示总的迭代次数。因此，量化模型倾向于在早期训练阶段学习高置信度区域，减轻异常值的负面影响，并为稳定优化准备更有利的参数空间。

三、实验（Experiment）

对比实验

本文在五个视觉任务上进行了实验，分别是图像分类、目标检测、实例分割、点云分类、点云组件分割。实验结果如表 1-4 所示。

实验结果显示，与先进的训练后量化方法相比，本文提出的 AIQViT 取得了更加优越的性能，即使在低比特量化的情形下，所提出方法依旧可以保持较好的性能。

表1. ImageNet数据集量化实验结果

表2. COCO数据集量化实验结果

表3. ModelNet40数据集量化实验结果

表4. ShapeNetPart数据集量化实验结果
四、消融实验

关键组件有效性分析

为了验证 AIQViT 中关键组件的有效性，我们使用 DeiT-T 对 ImageNet 数据集进行消融研究。为了方便起见，架构知情的低秩补偿、动态聚焦量化器和课程学习策略分别缩写为 AILoC、DFQ 和 CL。

定量实验结果详见表 5。当不适用 DFQ 时，Softmax 后激活将采用统一量化器。结果表明，当使用所有变体时，AIQViT 获得了最佳结果。

具体而言，与 vanilla（排除所有变体）相比，AILoC 分别将 W3/A3、W4/A4 和 W6/A6 量化的测试准确率提高了 15.31%、10.80% 和 7.61%，证实了 AILoC 中使用的低秩补偿机制的有效性。此外，当 DFQ 不存在时，AIQViT 的准确率下降了 11.93%，这表明 DFQ 在处理低位情况方面具有优势。

表5. 关键组件消融结果

此外，为了验证结构搜索的有效性，我们在 ImageNet 上进行了相关实验，实验结果如表 6 所示。从表 6 可以看出，具有自动搜索的 AIQViT 始终比具有固定 r 的 AIQiT 表现更好。这主要是由于可微架构搜索，它为网络量化带来了更合适的架构。

表6. 不同秩 r 对模型的影响

对于 DeiT-S，在 W4/A4 和 W6/A6 量化的情况下，r=20 的模型比 r=100 的模型高出 1.0% 和 0.3%，这表明直接增加 r 并不能保证更好的性能。

五、结论

本文提出了一种为 ViTs 设计的训练后量化方法 AIQViT。AIQViT 采用了一种结构感知低秩补偿机制，该机制分别使用网络架构搜索和课程式学习策略进行秩计算和稳定优化。

此外，提出了一种简单而有效的 DFQ 来解决 Softmax 后激活的不平衡分布，避免了效率较低的对数运算，从而进一步提高了量化效率。在五个视觉任务的实验表明，所提方法取得了比已有方法更优异的性能，同时取得了更好的泛化性。