训练大模型最烧钱的不是显卡,是时间。一篇新研究把预训练和微调的账算清楚了。

团队对比了不同规模模型的训练曲线。发现个反直觉的事:小模型预训练+大模型微调,有时候比直接训大模型还划算。关键看数据怎么配。

打开网易新闻 查看精彩图片

预训练阶段,模型在学"世界常识"。这时候数据质量比数量重要——脏数据喂多了,后期微调很难纠回来。微调阶段则是"专业对口",用领域数据激活预训练里的相关能力。

打开网易新闻 查看精彩图片

研究给了个实用建议:别盲目堆参数。先测你的任务需要多少"常识",再决定预训练投入。很多团队反着来,先训个大的再说,结果微调时发现冗余能力根本用不上。

打开网易新闻 查看精彩图片

最省钱的组合是:中等规模预训练+针对性微调+轻量迭代。这套打法在多个NLP任务上验证了,训练成本能降40%以上,效果不掉。