打开网易新闻 查看精彩图片

训练一个大模型要花多少钱?OpenAI没公开过GPT-4的账单,但业内估算单次训练成本在千万美元级别。更麻烦的是时间——英伟达H100集群全速运转几周,电费都能买套房。

传统解法有两条路:先训个巨无霸再瘦身,或者干脆训个小模型认命接受性能打折。MIT CSAIL联合马普所、ELLIS、苏黎世联邦理工和Liquid AI的研究团队,最近搞了个叫CompreSSM的新方法,直接把这道选择题撕了——他们在训练过程中就把模型压瘦,而不是等练完再动刀

控制论的"体检报告"长什么样

控制论的"体检报告"长什么样

这个方法瞄准的是状态空间模型(State-Space Model,SSM),一类在语言处理、音频生成和机器人领域越来越流行的架构。研究团队从控制理论借了个工具:Hankel奇异值(Hankel Singular Values),用来量化模型内部每个状态对整体输出的贡献度。

「本质上这是一种让模型在训练时越变越小、越变越快的技术,」论文一作、MIT电气工程与计算机科学系博士生Makram Chahine说,「学习过程中,它们同时也在丢弃对自身发展无用的部分。」

关键发现有点反直觉:模型内部各组件的相对重要性,在训练早期就趋于稳定。团队用Hankel奇异值给每个维度打分,靠谱地分出哪些该留、哪些该扔,然后提前动手术。

具体操作上,他们每几千步训练就做一次"体检",把贡献度低的维度标记为可删除。被标记的部分不会立刻消失,而是逐渐降低学习率,让模型有时间适应新的结构。等适应得差不多了,再物理删除并压缩模型。

省下的不只是显卡

省下的不只是显卡

实验数据很实在。在语言建模基准测试上,CompreSSM把模型体积压缩了40%,推理速度提升,最终性能却没掉——有些任务甚至略超原模型。音频生成和机器人控制任务上也复现了类似效果。

更隐蔽的收益是训练成本。传统剪枝方法得等模型完全收敛才能动手,意味着前期投入全部沉没。CompreSSM从训练中期就开始压缩,被删除的维度后续不再参与计算,实打实省下了算力和电费

研究团队做了个对比实验:同样训到收敛,CompreSSM路线的总计算量比传统路线少了约三分之一。按AWS p4d实例的市价估算,一个百亿参数规模的模型能省下六位数美元。

状态空间模型这两年风头正劲,Mamba架构的论文去年被ICML评为杰出论文,多家创业公司押注这个方向。但SSM的参数量膨胀速度不比Transformer慢,压缩需求同样迫切。CompreSSM的出现,相当于给这个新兴架构族配了套原生瘦身方案。

谁该紧张,谁该兴奋

谁该紧张,谁该兴奋

这个方法对AIinfra层的玩家冲击最直接。专门做模型压缩的第三方工具厂商,核心卖点是"训完后再优化",现在上游开始原生支持边训边压,空间被挤压。云厂商的算力租赁业务倒是利好——客户同样预算能跑更多实验。

创业公司的反应分化。做端侧AI的团队最积极,模型体积直接决定能不能上手机;做大模型预训练的则相对谨慎,毕竟压缩40%和压缩60%之间还有探索空间,没人想先冒险。

Chahine透露团队正在和一家机器人公司合作,把CompreSSM塞进实时控制系统的训练流程。机器人场景对延迟极度敏感,模型瘦身带来的推理加速是刚需。

论文已被NeurIPS 2024接收,代码和预训练检查点计划开源。GitHub仓库还没公开,但HuggingFace社区已经有开发者根据论文描述尝试复现。

一个有趣的细节:审稿人之一在OpenReview上质疑,Hankel奇异值的计算本身有开销,频繁"体检"会不会吃掉省下的算力?作者回应说实际每几千步才做一次,摊薄后占比不到2%,且正在尝试用近似算法进一步降低。

控制理论这个上世纪中期的学科,因为AI又热了起来。除了MIT这组,DeepMind去年也用李雅普诺夫稳定性分析改进强化学习,斯坦福把模型预测控制(MPC)和神经网络嫁接。老工具解决新问题,算是工程领域的常态。

CompreSSM的局限也写在论文里:目前只验证了状态空间模型,Transformer架构能不能用同款思路还是未知数。团队说理论上有希望,但注意力机制的动态稀疏性和SSM的固定结构差异很大,直接迁移会踩坑。

如果这套方法最终能跨架构通用,大模型训练的边际成本曲线会被重新绘制。现在的问题是,OpenAI和Anthropic的内部团队,是不是已经在做类似的事了?