垂域大模型数据配比cookbook：D-CPT Law|cpt|垂域|实验|拟合|通用

目前，因大语言模型训练所需的算力越来越大，为了节省训练代价，更多的研究者开始关注Scaling Law的技术发展与应用。本文将探索垂域大语言模型(Domain-specific Large Language Models)的续训阶段(Continual Pre-Training, CPT)的Scaling Law。

本篇工作在Chinchilla Scaling Law的基础上新增了变量--混合数据比例r，并提出了D-CPT Law，并提出了3种不同设置下的使用方法来验证D-CPT Law在实际场景下的使用。

随着大语言模型(Large Language Models, LLMs)的发展，模型在多个领域(数学，代码，通识等)上展现了强大的能力，但模型训练所需的算力也越来越大，为了节省模型的训练代价，越来越多研究者关注Scaling Law的技术发展与应用，用Scaling Law来节省训练代价。具体来说，Scaling Law的核心思想是让模型在小规模的实验(模型参数量少，模型训练语料少)下进行实验，然后通过Scaling Law来预测模型在大规模实验(模型参数量大，模型训练语料大)下的表现。

本篇工作探索垂域大语言模型(Domain-specific Large Language Models)的续训阶段(Continual Pre-Training, CPT)的Scaling Law[1]。具体来说，垂域大语言模型是基于通用大语言模型[2]在特定领域数据(代码，数学，医学等)上进行续训得到，它在垂域能力上会有非常强的提升，目前构建续训数据的主要策略是垂域数据加上通用数据进行混合训练，其中通用数据保证了大语言模型在通用能力上不会灾难性遗忘(catastrophic forgetting)。

不同混合比例下D-CPT Law的表现

本篇工作在Chinchilla Scaling Law的基础上新增了变量--混合数据比例r，并提出了D-CPT Law，在六个垂域(代码，数学，音乐，化学，医学，法律)上的r2系数达到了0.97，huber loss小于0.02，在预测性和泛化性上都展现了强大的表现。除此之外，为了验证D-CPT Law在实际场景下的使用，这篇工作提出了3种不同设置下的使用方法。最后，本篇工作还初步探索了跨领域下如何节省计算资源得到新领域下的D-CPT Law。具体来说，通过建模每个领域的可学习系数DLC(Domain-specific Learnable Coefficient)，然后嵌入DLC变量得到Cross-Domain D-CPT Law。拟合好Cross-Domain D-CPT Law后，对于一个新领域，只需要计算它的DLC值就可以得到新领域的D-CPT Law。

论文题目： D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models 论文链接： https://arxiv.org/abs/2406.01375

一、动机

垂域大语言模型能在特定垂域领域(电商，代码，数学，化学等)上的能力超过通用大语言模型(GPT-4等)，训练垂域大语言模型的常用策略是在一个较强的预训练模型(LLaMA-3-base, Qwen-1.5-base)上进行续训[3]，续训数据由垂域数据和通用数据组成，预训练模型在续训数据上进行续训后，可以提升垂域能力同时保证了通用能力不会灾难性遗忘，我们将这种场景称作D-CPT(Domain-specific Continual Pre-Training)。在D-CPT的场景下，如何确定模型参数量大小，训练语料量以及续训数据比例得到最优的模型表现是费时费力的。随着Scaling Law被更多研究者关注，基于Scaling Law强大的预测能力，这篇工作希望探索D-CPT场景下的Scaling Law，指导垂域模型的训练，优化垂域模型的训练范式。

二、方法

D-CPT Law和Cross-Domain D-CPT Law的使用流程图2.1 D-CPT Law

D-CPT场景下的Scaling Law公式为：

其中 N 表示模型参数量， D 表示模型训练语料量， r 表示数据混合比例，其余参数都是拟合参数，拟合算法是L-BFGS。

这个公式能满足以下四个要求：

适应性：混合比例的有效取值范围是0到1，D-CPT Law在这个区间内均有有效值。
显性趋势：观察不同模型参数量、不同训练语料量以及不同混合比例下的实验结果，观察到数据点呈以下显性趋势：

D-CPT Law能够满足这3个显性的数据点变化趋势。

隐性趋势：观察不同模型参数量、不同训练语料量以及不同混合比例下的实验结果，观察到数据点呈以下隐性趋势：

D-CPT Law能够满足隐性的数据点变化趋势。

一致性：当混合比例r固定时，D-CPT Law能够转换成Chinchilla Scaling Law。

D-CPT Law的表现2.2 Cross-Domain D-CPT Law

表征每个领域的可学习系数 K (Domain-specific Learnable Coefficient)，然后将 K 嵌入到D-CPT Law，得到Cross-Domain D-CPT Law：

其中 N 是模型参数量， D 是模型训练语料量， r 是混合数据比例， K 是领域可学习系数，其余参数是拟合参数，拟合算法是L-BFGS。

Cross-Domain D-CPT Law满足以下两个要求：

统一性：在 K 固定的情况下，Cross-Domain D-CPT Law能转换成D-CPT Law。
单调性：K 度量一个领域的可学习程度，如果一个领域更可学习，那么它的验证集损失会更低，所以Cross-Domain D-CPT Law应满足随K增大而单调递减：

除此之外，建模可学习系数 K 的方法有很多，这篇工作通过实验发现如下所示的建模方式表现最好：

其中和是拟合参数，表示一个领域的初始验证集损失，表示一个领域的验证集损失变化率。

Cross-Domain D-CPT Law的表现

三、实验

3.1 实验设置

这篇工作在六个垂域上进行了实验，分别是代码，数学，法律，音乐，化学和医学，通用数据为Dolma，预训练基础模型是Qwen-1.5，模型参数量从0.5B到4B，模型训练量从0.1B到26B，混合比例涵盖了9个不同的比例

3.2 D-CPT Law

D-CPT Law的实验结果

5种参数化D-CPT Law方法的实验结果，的表现最好。

3.3 D-CPT Law的使用

平衡通用能力和垂域能力：保证通用能力在阈值范围内最大化垂域能力的最优数据配比。
有限的垂域数据：垂域数据有限的情况下最大化垂域能力的最优数据配比。
模型参数量和模型训练量的资源分配：在计算代价相同的情况下，找到最大化模型表现的模型参数量和模型训练量。

3.4 Cross-Domain D-CPT Law

Cross-Domain D-CPT Law的实验结果

4种建模 K 方法的实验结果，表现最好。

四、总结与展望

这篇工作探索了垂域模型续训阶段的Scaling Law，提出了D-CPT Law，为垂域模型的研究者提供了训练策略优化的思路，在3个主要的实际使用场景下，D-CPT Law的实用性也得到了有效地验证。除此之外，D-CPT Law还初步探索了跨领域设置下的D-CPT Law，提出Cross-Domain D-CPT Law，有效地降低了新领域的拟合实验代价。期待Scaling Law在后续研究中对拟合代价的优化，让更多人能够使用Scaling Law。

参考资料

[1] Aghajanyan, A., Yu, L., Conneau, A., Hsu, W.N., Hambardzumyan, K., Zhang, S., Roller, S., Goyal, N., Levy, O., Zettlemoyer, L., 2023. Scaling laws for generative mixed-modal language models, in: International Conference on Machine Learning, PMLR. pp. 265–279.

[2] AI, ., :, Young, A., Chen, B., Li, C., Huang, C., Zhang, G., Zhang, G., Li, H., Zhu, J., Chen, J., Chang, J., Yu, K., Liu, P., Liu, Q., Yue, S., Yang, S., Yang, S., Yu, T., Xie, W., Huang, W., Hu, X., Ren, X., Niu, X., Nie, P., Xu, Y., Liu, Y., Wang, Y., Cai, Y., Gu, Z., Liu, Z., Dai, Z., 2024. Yi: Open foundation models by 01.ai. arXiv:2403.04652.

[3] Clark, A., de Las Casas, D., Guy, A., Mensch, A., Paganini, M., Hoffmann, J., Damoc, B., Hechtman, B., Cai, T., Borgeaud, S., et al., 2022. Unified scaling laws for routed language models, in: International conference on machine learning, PMLR. pp. 4057–4086.

llustration From IconScout By Pixel True

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（