MIT把AI训练成本砍了40%：边学边扔的骚操作|ai训练|mit|大模型|实验|机器人|神经网络|算法

训练一个大模型要花多少钱？OpenAI没公开过GPT-4的账单，但业内估算单次训练成本在千万美元级别。更麻烦的是时间——英伟达H100集群全速运转几周，电费都能买套房。

传统解法有两条路：先训个巨无霸再瘦身，或者干脆训个小模型认命接受性能打折。MIT CSAIL联合马普所、ELLIS、苏黎世联邦理工和Liquid AI的研究团队，最近搞了个叫CompreSSM的新方法，直接把这道选择题撕了——他们在训练过程中就把模型压瘦，而不是等练完再动刀。

控制论的"体检报告"长什么样

这个方法瞄准的是状态空间模型（State-Space Model，SSM），一类在语言处理、音频生成和机器人领域越来越流行的架构。研究团队从控制理论借了个工具：Hankel奇异值（Hankel Singular Values），用来量化模型内部每个状态对整体输出的贡献度。

「本质上这是一种让模型在训练时越变越小、越变越快的技术，」论文一作、MIT电气工程与计算机科学系博士生Makram Chahine说，「学习过程中，它们同时也在丢弃对自身发展无用的部分。」

关键发现有点反直觉：模型内部各组件的相对重要性，在训练早期就趋于稳定。团队用Hankel奇异值给每个维度打分，靠谱地分出哪些该留、哪些该扔，然后提前动手术。

具体操作上，他们每几千步训练就做一次"体检"，把贡献度低的维度标记为可删除。被标记的部分不会立刻消失，而是逐渐降低学习率，让模型有时间适应新的结构。等适应得差不多了，再物理删除并压缩模型。

省下的不只是显卡

实验数据很实在。在语言建模基准测试上，CompreSSM把模型体积压缩了40%，推理速度提升，最终性能却没掉——有些任务甚至略超原模型。音频生成和机器人控制任务上也复现了类似效果。

更隐蔽的收益是训练成本。传统剪枝方法得等模型完全收敛才能动手，意味着前期投入全部沉没。CompreSSM从训练中期就开始压缩，被删除的维度后续不再参与计算，实打实省下了算力和电费。

研究团队做了个对比实验：同样训到收敛，CompreSSM路线的总计算量比传统路线少了约三分之一。按AWS p4d实例的市价估算，一个百亿参数规模的模型能省下六位数美元。

状态空间模型这两年风头正劲，Mamba架构的论文去年被ICML评为杰出论文，多家创业公司押注这个方向。但SSM的参数量膨胀速度不比Transformer慢，压缩需求同样迫切。CompreSSM的出现，相当于给这个新兴架构族配了套原生瘦身方案。

谁该紧张，谁该兴奋

这个方法对AIinfra层的玩家冲击最直接。专门做模型压缩的第三方工具厂商，核心卖点是"训完后再优化"，现在上游开始原生支持边训边压，空间被挤压。云厂商的算力租赁业务倒是利好——客户同样预算能跑更多实验。

创业公司的反应分化。做端侧AI的团队最积极，模型体积直接决定能不能上手机；做大模型预训练的则相对谨慎，毕竟压缩40%和压缩60%之间还有探索空间，没人想先冒险。

Chahine透露团队正在和一家机器人公司合作，把CompreSSM塞进实时控制系统的训练流程。机器人场景对延迟极度敏感，模型瘦身带来的推理加速是刚需。

论文已被NeurIPS 2024接收，代码和预训练检查点计划开源。GitHub仓库还没公开，但HuggingFace社区已经有开发者根据论文描述尝试复现。

一个有趣的细节：审稿人之一在OpenReview上质疑，Hankel奇异值的计算本身有开销，频繁"体检"会不会吃掉省下的算力？作者回应说实际每几千步才做一次，摊薄后占比不到2%，且正在尝试用近似算法进一步降低。

控制理论这个上世纪中期的学科，因为AI又热了起来。除了MIT这组，DeepMind去年也用李雅普诺夫稳定性分析改进强化学习，斯坦福把模型预测控制（MPC）和神经网络嫁接。老工具解决新问题，算是工程领域的常态。

CompreSSM的局限也写在论文里：目前只验证了状态空间模型，Transformer架构能不能用同款思路还是未知数。团队说理论上有希望，但注意力机制的动态稀疏性和SSM的固定结构差异很大，直接迁移会踩坑。

如果这套方法最终能跨架构通用，大模型训练的边际成本曲线会被重新绘制。现在的问题是，OpenAI和Anthropic的内部团队，是不是已经在做类似的事了？

MIT把AI训练成本砍了40%：边学边扔的骚操作

控制论的"体检报告"长什么样

省下的不只是显卡

谁该紧张，谁该兴奋

热搜

热门跟贴

控制论的"体检报告"长什么样

省下的不只是显卡

谁该紧张，谁该兴奋

热搜

热门跟贴

相关推荐

索尼研发乒乓球机器人打败日本顶尖选手

π0.7的泛化能力有多强？零样本纯靠口述就能用空气炸锅

大模型外挂三维物体知识库来了，大幅增强机器人长程自主操作能力

10万引普林斯顿刘壮最新访谈：架构没那么重要，数据才是王道

亦庄机器人马拉松现场名场面合集

LLM数据量大管饱，机器人数据却连1%的起跑线都没够到？

人形机器人半马跑姿大赏 ，有的比人快多了！有的“状况百出”

香港科技公司推出组合式机器人，灵活性令人惊叹

宇树科技王兴兴：给机器人行业多一点耐心

朱旻琦：具身智能用一天进化一天、聪明一天 机器人普及核心痛点是需要二次开发和适配

新颖鳍足机器人，水陆两栖行动自如，适应各种地形

机器人半马成绩，超越人类纪录

刚刚开源了！

零样本 Sim-to-Real ！2

机器人打包运输的正确方式

大模型的下半场，属于拥有云+AI全栈引擎的玩家

人活着的唯一理由是善良

安心养虾！从OpenClaw 看云上AI安全落地路径

支持远程操控和通用GUI操作3

小心！你的AI正在一本正经地忽悠你

人形机器人半马跑姿大赏，有的比人快多了！有的“状况百出”

朱旻琦：具身智能用一天进化一天、聪明一天机器人普及核心痛点是需要二次开发和适配