这些年大模型的发展史,某种程度上也是模型规模不断扩张的历史。更大规模的模型参数带来了性能的不断提升,但与此同时,计算成本也急剧增加。

为了降低计算成本,低精度训练与推理成为了一种行之有效的策略,它能通过减少计算量和内存占用来提升训练效率和推理速度。例如 Llama-3 405B,就采用了 BF16(即 16 位浮点,而非传统的 32 位)精度进行训练。

图丨 BF16 概览 [2](来源:MAARTEN GROOTENDORST)
打开网易新闻 查看精彩图片
图丨 BF16 概览 [2](来源:MAARTEN GROOTENDORST)

且随着硬件支持的逐渐发展,专门为低精度计算设计的计算单元和优化的内存架构不断涌现,使得 FP8、FP4 等更低精度的训练方式逐渐成为可能,能在减少计算和存储成本的同时,保持模型的数值稳定性和性能。于是,目前有关缩放定律的研究似乎并未充分考虑精度这一因素的影响。

那么,代价是什么呢?

在这一背景下,来自哈佛大学、斯坦福大学与 MIT 等机构的合作团队提出:随着模型规模的不断扩大,低精度的量化或将不再有效。

相关论文以《精度感知的缩放定律》(Scaling Laws for Precision)为题,发表在预印本网站arXiv上 [1]。

图丨相关论文(来源:arXiv)
打开网易新闻 查看精彩图片
图丨相关论文(来源:arXiv)

低精度训练中,模型的 Scaling Laws 变得更加复杂,因为量化带来的误差可能影响模型的准确性,尤其是在处理大量数据时。传统的 Scaling Laws 多基于高精度训练,并未考虑低精度带来的误差放大效应。

为此,团队提出了一种“精度感知”(precision-aware)的缩放定律,相比以往研究,该定律不仅考虑了模型参数的数量和数据规模,还引入了精度这一新的维度,来研究其对训练和推理损失的影响。

为了探索这一问题,研究团队对 465 个语言模型进行了实验,这些模型的规模从 3000 万到 17 亿个参数不等,并使用了包含 260 亿 tokens 的数据集进行训练。实验中涵盖了不同精度的组合,从 3 位到 16 位,模拟了多种低精度环境,以研究其对模型性能和计算效率的影响。

图丨主要发现示意图(来源:arXiv)
打开网易新闻 查看精彩图片
图丨主要发现示意图(来源:arXiv)

首先,研究分析了后训练量化(Post-Train Quantization, PTQ)的影响。后训练量化是指在模型完成训练后,将其高精度的权重量化为低精度,以减少推理时的存储需求。这种方法通常被用于深度学习模型的部署阶段,以节省硬件资源。

然而,团队发现,后训练量化带来的模型性能损失会随着训练数据量的增加而增加,特别是在低精度下,这种损失可能非常显著。

打开网易新闻 查看精彩图片

具体来说,随着数据量的增加,模型的权重逐渐变得更加“紧凑”,而这种紧凑性使得在进行低精度量化时,模型更容易出现较大的性能损失。因此,增加训练数据并不总是能带来推理阶段的性能提升,尤其是在需要进行量化的情况下,这样的训练数据量可能会使模型的推理性能下降。

为了进一步理解低精度训练的影响,研究者对不同部分的低精度训练进行了单独实验,包括仅量化权重的“量化感知训练”(Quantization-Aware Training)和对权重、激活及 KV 缓存同时量化的“低精度训练”(Low-Precision Training)。

通过这些实验,研究者分别观察了各组件在不同精度设置下对模型损失的影响,并总结了低精度训练对模型整体性能的作用机制。

实验结果显示,在较低精度下,增加权重的位精度所带来的收益很大,但在较高精度下会趋于饱和。

打开网易新闻 查看精彩图片

相比之下,激活和 KV 缓存在更低精度下的量化则可能显著增加模型的损失。

通过这些实验,研究者意识到各个组件的低精度效果是相对独立的,但同时存在一个共同的现象:模型的总有效参数数会随着各组件精度的降低而显著下降,进而导致模型损失的上升。

打开网易新闻 查看精彩图片

虽然在权重精度较低时,增加模型参数可以使模型达到与高精度小模型相似的性能。但对于那些极低精度(例如 INT3 或 FP4)的训练,即使模型的总参数数量增加,其学习能力和表现也可能大幅度下降,因为这些低精度参数无法完全捕捉复杂的数据特征。

所以,随着数据量的增加,使用更高的训练精度可以更好地利用这些数据,从而提高模型的性能。

为了将训练与推理阶段的精度、参数和数据之间的相互作用统一起来,研究团队提出了一种统一的精度缩放定律。该定律综合了训练中的损失、后训练量化中的损失,以及它们在不同精度设置下的表现,其公式如下:

打开网易新闻 查看精彩图片

通过将训练损失和推理损失结合在一起,研究由此提供了一个统一的框架来预测低精度训练和量化后的性能。这种精确的建模使得研究者能够预测在不同训练和推理精度组合下的性能变化,从而为未来模型的精度选择提供了理论依据。

团队指出,尽管 16 位精度(BF16)已成为训练大规模模型的常规选择,但实际上 7 到 8 位精度可能在计算成本与性能之间达到更优的平衡点,并进一步指出在极低精度(如 4 位以下)下,模型的有效参数数将显著减少,导致需要成倍增加参数量以维持模型性能,这在实际中或许行不通。

综上,这项研究通过一系列精度实验与理论推导,揭示了低精度训练对模型性能的深远影响。通过精度感知的扩展规律,研究者不仅为低精度模型训练提供了科学依据,也为未来模型的精度优化指明了方向。

图丨相关推文(来源:X)
打开网易新闻 查看精彩图片
图丨相关推文(来源:X)

有学者表示,“这是长期以来最重要的一篇论文。它以强有力的证据表明,我们正在达到量化的极限”,它或许意味着,我们的思维模式“将很快从规模化转变为‘我们能用现有资源做什么’”。

参考资料:

1.https://arxiv.org/abs/2411.04330

2.https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization

3.https://x.com/Tim_Dettmers/status/1856338255408517388

运营/排版:何晨龙