我之前觉得罗福莉是包装出来的。

而且我相信很多人都跟我一样这么觉得。

没什么特别的理由,一种网上冲浪多年的人惯有的偏见

当在信息流里反复看见一个人的名字,并且还伴随着所谓「北大硕士」「DeepSeek 核心成员」「AI 天才少女」「小米大模型负责人」的标签时,眉头就开始皱起来了,就像当初看到小米汽车住在热搜榜上的时候一样。

1

4 月 23 号那天,MiMo-V2.5-Pro 排到 Artificial Analysis 全球开源大模型综合智能指数并列第一,总榜前五。

朋友圈刷屏了一轮,我也看到了,照例没当回事。

面向榜单型大模型训练我见得太多了,多得是刷榜分数高得飞起,一到实际应用起来就跟智障一样的所谓“人工智能”,你知道我在说哪家。

本质上,大模型的更新迭代速度已经快到,可能昨天刚骄傲地宣布是全球第一了,第二天就被挤了下去。就像当年的小米手机刷 DXO 榜单被华为当天狙击掉一样。

直到我前两天去听了下张小珺和罗福莉的那期播客,我才对她开始改观了。

2

访谈刚开始的时候,罗福莉说她第一次接触 OpenClaw 的时候,觉得这玩意儿就是 Claude 套了个壳,原话是“很排斥”。

这跟我最开始的态度如出一辙。

三天后,她通宵试了一整夜,说自己多巴胺飙到停不下来,这种转变的激进,说实话我完全没做到。我时至今日都觉得,OpenClaw 这种东西对我们这种普通人来说,有用,但没那么有用。但对他们这种搞研究的人,尤其是几乎 token 自由的人,可能才是真正能产生大量价值的东西。

我对她的态度,坦白讲有点类似于她最开始对 OpenClaw 的态度一样,都是看标签下菜碟,用自己预先设定的立场去套某个具体的人。

后来我细想过,这偏见到底打哪来的。最表面的一层不用回避:性别。AI 圈子有个心照不宣的条件反射,女性研究者但凡成绩亮眼,评论区一定有人在找“她背后是谁”。我不至于这么想,但我也没法说这层滤镜对我完全没影响。

再往下一层是年龄。95 后,今年也就刚过 30。互联网行业的人对 30 岁有一套根深蒂固的条件反射:35 岁危机、大厂优化名单、被 00 后抢饭碗。我身边就有不少同事一过 30 就开始盘算退路,朋友圈从晒加班变成晒考公。在这种氛围里泡久了,你会下意识觉得 30 岁还在冲锋的人不是猛就是莽,总之不太正常。

但 AI 研究是个完全不同的物种。这个领域从诞生起就是年轻人的主场,Ilya Sutskever 加入 OpenAI 的时候 29 岁,Noam Shazeer 写出 Transformer 论文那年也才三十出头。在互联网行业即将被毕业的年龄,在 AI 领域恰好是最能出活的时候。

北大硕士、年少成名、核心团队出来的——我脑子里下意识给她设了个极高的预期阈值,然后在她没做出「配得上这个履历」的成绩之前,默认归类成「光环大于实力」。事实上,在她拿出 MiMo-V2.5 这套成绩之前,我觉得这个质疑完全站得住脚。

3 我开始认真听她的观点了。

她在访谈里提了一串数字,算力配比:过去行业通行的卡配比是 3:5:1,研究、预训练、后训练。她现在团队用的是 3:1:1。预训练的权重从 5 砍到 1,后训练直接拉到跟它持平,背后的判断是:大模型正在从「使劲喂数据训出聪明脑子」的阶段切到「让脑子学会干活」的阶段,圈内管这叫从 Pre-train 时代进入 Agent 时代。

原话是:

一个时代的成功并不意味着下一个时代的领先,现在基本上大家在同一水平线。

然后是管理。小米大模型团队没有职级,没有小组划分,没有 deadline。我第一反应是:你在跟我扯淡呢吧,这不就是大学实验室过家家。但她说了句跟梁文峰异曲同工的判断:

这话放在小米的语境下更有意思。小米是一家以执行力著称的公司,雷军自己就是劳模人设,打的就是"别人做 100 分我做 120 分"的效率牌。在这种企业文化里,硬生生辟出一支没有 KPI 没有 deadline 的团队,做的还是烧钱最狠的大模型研发,这件事本身就很不小米。

但反过来想,雷军能把大模型团队交给一个 30 出头的年轻人,让她用这种几乎"反小米"的方式来管,也说明他赌的不是流程和考核,赌的是人。敢这么赌的老板,国内也不多。

没 deadline 不代表没压力。她自己讲晚上经常睡不好,做梦都在想"为什么 loss 又 spike 了"。训 1T 参数的模型,数值稳定性一出问题,有时候停训一两周就为了排查一个根因。换成 KPI 驱动的团队,十天半月颗粒无收,上面第一个扛不住。她选择宁可停也要把问题吃透。代替考核的是信息密度,团队飞书群消息量大到十分钟不看就 999+,每个人看到别人的进展和思路会被激发出新想法,她说群体想象力是乘积关系。

效果是春节回来,三四周干完了以前三四十周的活。

她在多模态上的态度让我意外。按常理搞大模型的人都追求架构统一,恨不得一个模型解决所有问题。罗福莉以前也信这套,觉得多模态是通往 AGI 的必经之路。现在她的说法变了:"多模态有没有促进智能,根本不关键。"在 Agent 框架能协调多个模型的前提下,硬追架构优雅反而浪费时间。

4

访谈快结束的时候她说了一段话,我倒回去听了两遍。大意是她以前一直觉得自己做的研究工作足够有创造力,不会被 Skill 化,不会被 Workflow 化。

但我现在发现,它竟然也能。

我在大厂好几年了,技术 leader 公开发言什么样我见过不少。十个里有九个半在给自己和团队镀金,恨不得每句话截图出来都能贴招聘海报上,年终述职的 PPT 要花两周打磨,功劳簿拉得比论文参考文献还长。罗福莉这个操作跟他们完全反着来,透露出一股未经公关毒打的青涩。

AI 领域这几年冒出来的年轻技术负责人不少,但多数人的公开表达有个共同特征:拼命证明自己够格。这很正常,年轻嘛,位置又高,证明欲是刚需。

罗福莉这一年多里,反而很少通过媒体去证明自己,而是靠拿出成果来,靠实际效果为自己代言,我觉得这种风格,在 AI 圈还蛮独树一帜的。

所以,仅代表个人,我对小米罗福莉改观了,并祝贺她和团队所取得的成果。