先岔开个题外话,我有个朋友叫锴杰,颜值在线,在乐团当过首席

在线应援(bushi
打开网易新闻 查看精彩图片
在线应援(bushi

对于锴杰,我一直觉得
偶像前景>技术品味>产品塑造

他有个产品叫马卡龙,但本文和这个无关
上个月锴杰来酒吧,跟我说:
做产品的过程中,他们有一些技术上的发现,然后成立了一个 Lab

这对于锴杰来说,我觉得,比单纯做产品靠谱多了

现在,Mind Lab 正式成立,并交出了第一份答卷

  • • 万亿参数 LoRA 强化学习

  • • GPU 消耗砍掉 90%

  • • 记忆算法 SOTA

现在他不但搞了产品,还搞了技术,很好
偶像之路,再缓缓吧

https://macaron.im/mindlab 预训练结束了
打开网易新闻 查看精彩图片
https://macaron.im/mindlab 预训练结束了

Richard Sutton 是 DeepMind 首席科学家,强化学习之父
他今年有个判断:预训练时代结束了

互联网数据总共就 14T 左右,该训的都训过了
那接下来怎么继续提升模型智能?
Sutton 给的方向叫Era of Experience
翻译过来就是「经验智能

核心思路是这样:
把模型放进真实产品里,基于用户真实反馈,持续训练训练
让模型,在产品里一直训、一直长

Era of Experience
打开网易新闻 查看精彩图片
Era of Experience

...等等,锴杰跟我讲这些的时候
我突然想到了之前的另一个产品
Hitem 为了训练 3D 模型,专门建立了个工厂,也是这个理由

Mind Lab 做了个实验,恰好也验证这件事:
真实反馈数据流训练的模型,智能提升效果远比用固定 reward 训练的好

流式 Reward vs 固定 Reward 效果对比
打开网易新闻 查看精彩图片
流式 Reward vs 固定 Reward 效果对比

顺道说一下,这里有个概念上的区分

预训练造的是 Brain——大脑
大脑是静态的,训完就定型了,记住了互联网上的海量知识,但不会再进化

强化学习造的是 Mind——心智
心智会在环境中不断进化,能从反馈中学习,能动态调整行为

这是 Mind Lab 名字的由来

Mind Lab 在干啥

锴杰他们,在技术上做了两件事

第一件:万亿参数 LoRA 强化学习

在万亿参数模型上跑全参数强化学习,算力太贵,绝大多数团队玩不起

Mind Lab 的解法是用 LoRA

LoRA 的意思是:不动整个大模型,只取出大约 0.5% 的核心参数来训练

效果基本不打折,成本砍到十分之一

他们在 Kimi K2 上验证了这套方案:
64 张 H800 搞定万亿参数模型的强化学习

训练曲线,稳定收敛
打开网易新闻 查看精彩图片
训练曲线,稳定收敛

这套方案,已经合并到 NVIDIA Megatron-Bridge 和字节 seed verl,代码开源

锴杰跟我说,目前全球做这个方向的,只有两家
Thinking Machine 和 Mind Lab

第二件:Memory Diffusion

这是一个记忆算法我很喜欢

传统模型想要保存更多的东西,要么每轮对话总结记忆(开销大、细节丢失),要么存数据库检索(容易丢上下文)

Mind Lab 的思路很有意思,它是把对话轨迹本身当记忆
通过「遮蔽-分配-重填」三步动态压缩

  • • 选一块遮掉

  • • 根据重要性分配 token 预算

  • • 在预算约束下重新生成

灵感来自人类的遗忘机制:
比如...在开车的时候,你会忘掉路过的广告牌,只记住目的地

这套东西,在 Locomo 基准上达到 93% 准确率,SOTA

一个有意思的发现

Mind Lab 做了个对照实验

三个模型,控制总计算量一致,来做个训练对比

  • 1.5B 全参数训练

  • 7B LoRA 训练

  • 32B LoRA 训练

结论是32B + LoRA 效果最好

模型

可训练参数

效果提升

1.5B 全参数

1.5B

8.33%

7B LoRA

0.16B

11.31%

32B LoRA

0.07B

20.61%

为什么?
因为强化学习本质上是「先验受限」的
如果基座模型本身生成不出高质量轨迹,强化学习就没什么有用的信号可以放大

大模型已经编码了丰富的推理模式,强化学习在这些基础上精修,比从头造轮子效率高得多

大先验 + 小 LoRA,比小模型全参数训练更划算

还挺有意思的

产品是天然的 RL 环境

和锴杰认识很久了,也一直很喜欢他的技术品味
但即便是这样,我依然会有一个问题
这样的技术,为什么是来自产品团队?

得到了这样的回答
产品本身,就是最好的强化学习环境

这里说个很有趣的事实
Cursor 的估值,能买下国内所有的大模型创业公司

Cursor 最新一轮融资
打开网易新闻 查看精彩图片
Cursor 最新一轮融资

Cursor 值钱,在于它有最多的真实用户数据
用户用 Cursor 写代码,接受或拒绝建议,编辑或删除生成内容,这些全是训练信号

作为对比,X.AI 有很多算力、很多优秀研究员,但模型提升速度不够快
为什么?没有真实产品环境,奖励函数没法持续进化

Mind Lab 的逻辑也是这样
研究给产品带来体验升级(比如生成速度从 20 分钟到 2 分钟),产品给研究带来真实数据,这些是互相增强的

示意图
打开网易新闻 查看精彩图片
示意图

预训练时代,赢家是数据多的
经验智能时代,赢家会是产品好的

最后

Ilya 说过:
预训练时代正在走向终结

那下一个时代是什么?
可能是「经验智能」,也或者不是

但正如我们所体验的,
大脑在真实世界中,产生的心智会不断进化
AI 或许也会遵循,在人类的世界中不断进化

至于锴杰,他准备啥时候开启偶像之路》

我觉得...可能得等他先把心智这件事搞明白

Lab 主页
https://macaron.im/mindlab

合并PR
https://github.com/volcengine/verl/pull/4063
https://github.com/NVIDIA-NeMo/Megatron-Bridge/pull/1310