打开网易新闻 查看精彩图片

随着大模型在自然语言处理、计算机视觉以及多模态任务中的快速发展,全参数微调(Full Fine-tuning, FF)所带来的显存占用、训练时间和存储成本也越来越高。为了解决这一问题,参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)逐渐成为主流路线:通过冻结大部分预训练参数,仅更新少量可训练参数,使模型能够快速适配下游任务。

当前最常见的一类 PEFT 方法是基于矩阵低秩分解的方法,例如 LoRA 。其基本思想是将每一层的权重更新表示为一个低秩矩阵分解,从而用少量参数近似表示权重变化。这类方法结构简单、效果稳定,在大模型微调中得到了广泛应用。然而,当模型规模不断增大、层数持续增加时,这类方法仍然存在一些局限:

  • 每一层都需要独立的低秩适配模块,可训练参数仍随层数线性增长;
  • 低秩分解只利用了单层内部的矩阵结构,难以显式刻画不同层之间的相关性。

为进一步提升参数效率,近期研究开始探索张量化 PEFT(Tensorized PEFT)。这类方法将同类型层(例如各注意力层的 Q/K/V 投影矩阵)沿层维度进行堆叠,从而形成一个高阶张量结构。相比逐层的矩阵低秩分解,这种表示方式能够同时建模层内结构与跨层相关性,从而在理论上实现更紧凑的参数表示。

打开网易新闻 查看精彩图片

图 1:左—DCT(离散余弦变换)域下的张量奇异值分布 ;右—基于 LSM-3(权重张量经 mode-3 展开后的左奇异矩阵)的奇异值分布。可以观察到,大部分能量集中在少数主成分上。

尽管张量化 PEFT 在参数效率上具有明显优势,但在实际工程实现中仍然存在一个关键问题:权重张量重建(weight tensor reconstruction)

许多张量分解方法在每次前向或反向传播时,都需要将张量因子重新组合为完整的权重张量。这一过程会带来额外的工程开销:

  • 额外计算开销:重复的张量–矩阵乘法增加训练时间
  • 显存占用增加显式构造的大型权重张量会放大计算图规模

因此,一个关键问题是:

能否在保持张量化 PEFT 参数高效性的同时,避免训练过程中反复进行权重重建?

本文提出的 ReFTA(Reconstruction-Free Tensor Adaptation),正是一种针对这一问题设计的张量化 PEFT 方法。

打开网易新闻 查看精彩图片

  • 论文标题:ReFTA: Breaking the Weight Reconstruction Bottleneck in Tensorized Parameter-Efficient Fine-Tuning
  • 论文链接:https://zhouchenlin.github.io/Publications/2026-CVPR-ReFTA.pdf

ReFTA 的核心:互换 mode-1 与 mode-3 的乘积以避免显式权重重建

ReFTA 的首要设计目标,是消除张量方法在训练时反复重建权重张量所带来的额外开销。具体而言,ReFTA 将 mode-1 与 mode-3 的乘积顺序对调,把原本「先重建权重、再与输入相乘」的计算过程,改写为「先生成中间特征、再进行特征融合」。由此,在前向与反向传播中就不再需要显式构造完整的大尺寸权重张量,也无需将其纳入梯度图。

更重要的是,这一改写并不仅仅是实现层面的优化,而是改变了训练过程中的计算范式:模型不再围绕大规模权重张量展开计算,而是转向处理与 batch 规模相关的中间特征。对于张量化 PEFT 而言,这种从「权重空间」到「特征空间」的转变,正是 ReFTA 区别于已有方法的关键所在。

张量化表示与主成分低秩适配

考虑将 Transformer 中同类型层的权重矩阵沿层维度堆叠:

打开网易新闻 查看精彩图片

在此基础上,ReFTA 进一步使用张量主成分分析(Tensor PCA)得到一个主成分近似:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图 2:NF4 量化误差随张量秩变化的趋势,实证支持 ReFTA 在量化下更鲁棒。

然后在变换域里,每个张量切片都可以写成 LoRA 类似的低秩形式:

打开网易新闻 查看精彩图片

mode-1 与 mode-3 乘积交换

打开网易新闻 查看精彩图片

ReFTA 的实现要点在于以下两步的顺序交换:

打开网易新闻 查看精彩图片

交换后可等价地被改写为:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

整体示意如下:

打开网易新闻 查看精彩图片

图 3:ReFTA 的结构(基于切片的低秩适配器 + 特征融合)

这一步改写带来两项直接收益:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

表 1:ReFTA 与其两种权重合并变体在前向与反向计算的时间复杂度对比。

打开网易新闻 查看精彩图片

除了工程实现上的优势,ReFTA 还给出了一个针对张量化低秩 PEFT 的泛化上界。核心结论可以概括为:

打开网易新闻 查看精彩图片

其中:

  • R 是张量秩
  • K 是堆叠的层数 / 注意力头数
  • n 是输出维度
  • m 是样本数

这意味着:

  • 复杂度上界与张量秩 R 直接相关
  • 让「极小参数预算下仍能保持良好的泛化能力」更有可解释性

理论与实证的呼应

打开网易新闻 查看精彩图片

  • 在不同 backbone(ViT、RoBERTa、LLaMA-family)上,使用较小的 R 时 ReFTA 能在大幅减少可训练参数的同时接近甚至超过主流 PEFT 的性能,从实证角度印证了低秩设置下的良好泛化能力;
  • ReFTA 避免显式权重重建的实现方式直接带来了较小的训练显存占用,这对应着理论中对有效参数和计算复杂度的控制。

打开网易新闻 查看精彩图片

表 2:该表展示了在常见 ViT 基线上的方法对比,ReFTA 在较低参数预算下仍能超越 LoRA / PiSSA

打开网易新闻 查看精彩图片

表 3:该表展示了基于 RoBERTa 模型在 GLUE 六个数据集上的微调结果;其中全参数微调(FF)和参数量最小的方法分别以灰色和浅蓝色高亮。整体上看,ReFTA 在较低参数预算下依然能够保持有竞争力的性能,体现出较好的参数效率。

打开网易新闻 查看精彩图片

图 4:左 — Car 数据集下不同可逆变换 U_0(DCT / LSM-3 等)对张量秩下性能的影响;右 — FGVC 数据集下相同对比。两图表明不同可逆变换选择会影响低秩近似的实际效用。

总结与展望

ReFTA 所针对的问题十分明确:张量化 PEFT 虽然能够减少可训练参数,但训练时反复进行权重重建会带来额外的计算、显存与实现成本。

ReFTA 的关键贡献可以概括为四点:

打开网易新闻 查看精彩图片

从更宏观的角度看,ReFTA 的最大贡献不仅在于提供了一种更高效的 PEFT 方法,更在于其提出的核心思想:利用张量代数策略避免显式张量权重重建。这一思想不仅能够被应用于 PEFT 任务还有望应用于基于张量方法的模型压缩与高效模型结构设计等方向,从而为构建更加轻量而高效的模型提供新的思路。总体而言,这一方向仍具有非常广阔的拓展空间。

参考文献:

[1] Edward Hu, Yelong Shen, and Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Weizhu Chen. LoRA: Low-rank adaptation of large language models. In ICLR, 2022.

[2] Canyi Lu, Xi Peng, Yunchao Wei. Low-Rank Tensor Completion With a New Tensor Nuclear Norm Induced by Invertible Linear Transforms. In CVPR, 2019.

[3] Hao Kong, Canyi Lu, and Zhouchen Lin. Tensor Q-rank: newdata dependent definition of tensor rank. Machine Learning, 2019.

[4] Fanxu Meng, Zhaohui Wang, Muha Zhang. PiSSA: Principal singular values and singular vectors adaptation of large language models. In NeurIPS, 2024.