打开网易新闻 查看精彩图片

2017年,罗福莉正式进入北大读研。当时的她还不知道,接下来的两年,会让她这个名字第一次出现在公众视野里。

罗福莉的研二,是她人生中至今最累的一年。

累到什么程度?大年二十九回家,大年初五又赶回学校写论文。赶到正月十五,终于把论文投出去。回到寝室,窗外是元宵节的烟花声,她一个人躺在宿舍床上,眼泪止不住地往下流。

很多人后来看到“ACL八篇论文”这个标签,第一反应是“天才”。但罗福莉自己在知乎上回答过这件事:“付出了足够的努力,当然也有运气成分加持。”她还自嘲说,那段时间连续转发了一个月的“锦鲤杨超越”。

八篇论文,两篇是第一作者,一长一短全部入选ACL。ACL是自然语言处理领域的顶会,审稿标准极其严格。有腾讯的研究员在知乎上评价:“ACL审稿质量非常高,能中八篇是非常值得敬佩的成就。”

消息传出来后,瞬间登上知乎热搜。“AI天才少女”“AI萝莉”的标签就是从那时候开始的。

但罗福莉自己对这几个称呼,从头到尾都是拒绝的。

她说得很直接:“这类标签是为了吸引注意力而创造的刻板印象,它粉饰了科研过程中真正的努力、坚韧和全心投入,暗示成功是天生的。但我的起点很普通。”

她反复强调一个词——“阶段性目标感”。“一步一个脚印”这种听起来像鸡汤的话,是她从小学开始就在做的事情。小学时候每次进步几名,高中时候每次考试往前挪一挪,到了研究生,就是把一篇论文、一个实验、一个模型,一个一个磕下来。

整个硕士期间,她在顶会上发表的论文超过二十篇。这个数量放在博士生里都算优秀,而她当时只是一个硕士生。

不过,有一个问题始终摆在她面前:要继续读博,还是去工业界?

ACM班、北大本硕、顶会二十多篇——这条履历放在任何一所顶尖高校,读博都是顺理成章的选择。但罗福莉犹豫了。

她后来解释说,读博意味着在某个非常具体的细分领域里,花四五年时间深挖一个点。而她当时的兴趣已经开始往更宽广的方向转移——她想做“能被更多人用上的东西”。

用她自己的话说:“我想去工业界做点实在的研究。”

2020年,罗福莉硕士毕业。她拒绝了读博的机会,通过阿里巴巴最高级别的校园招聘“阿里星”计划,加入阿里达摩院机器智能实验室。同时拿到手的,还有腾讯技术大咖、百度AIDU计划——国内大厂最顶级的硕士offer,她几乎拿了个遍。

在阿里的日子,罗福莉后来用一句话概括——“阿里一年,人间十年。”

她在达摩院主导开发了一个叫VECO的多语言预训练模型。这个模型后来成为阿里深度语言模型体系AliceMind的八大核心模型之一,被顶会ACL 2021录用。AliceMind体系里八个模型,先后登顶了GLUE、CLUE、XTREME等六大NLP权威榜单。

VECO一个模型,日均调用量就达到了五十亿次。五十亿次是什么概念?说句不夸张的话,你每一次在淘宝上搜索商品、每一次用支付宝跟客服机器人对话,背后可能都跑过罗福莉写的代码。

但阿里这段经历,也让她第一次尝到了“失败”的滋味。

有一次她参与训练一个千亿参数的大模型。参数规模拉满,算力堆满,但跑出来的结果让人哭笑不得——数据清洗没到位、框架效率低下,模型臃肿得像个吹胀的气球,却一点都不“聪明”。

这是罗福莉职业生涯的第一次“滑铁卢”。在学校的时候,实验失败大不了重跑一次;在工业界,失败的代价是真实的资源、真实的时间、真实的人。这次经历让她开始反思:大模型这条路的本质到底是什么?

她自己的反思是:“在学校的时候总是追求提出一个很复杂的模型,大家看不懂,论文评审人也看不懂,但是到工业界的时候就会发现,一眼就能看懂并且还有效的模型才是最赞的。”

这句话,后来成为她技术哲学的一个注脚。

2022年,罗福莉做了一个让很多人意外的决定:离开阿里,加入一家名不见经传的量化私募——幻方量化。

外界看不懂。放着阿里的光环不要,跑去一家搞金融的公司?但罗福莉看中的,是幻方旗下正在孵化的AI项目——DeepSeek。

在DeepSeek,罗福莉担任深度学习研究员,成为后来震动了整个AI圈的DeepSeek-V2的关键开发者之一。

DeepSeek-V2是一个MoE(混合专家)架构的大模型。它最大的特点就两个字:便宜。推理成本只有GPT-4的百分之一,有外媒把它叫做“AI界的拼多多”。

罗福莉亲自在知乎上写了V2的技术解读文章,讲MoE架构怎么降低计算量、怎么在性能和成本之间找平衡。文风一如既往地“接地气”,不堆术语,不炫论文。

不过有一个细节值得注意:她没有参与后来让DeepSeek彻底爆火的V3和R1。DeepSeek-V2之后不久,她就开始了新的职业规划。

罗福莉自己,在2025年2月发了一条朋友圈。语气里带着明显的疲惫:“请互联网还我一片安安静静做事的氛围。不要再无差别打扰我家人、朋友、同学乃至初高中班主任了。只想安安静静做难而正确的事情,仅此而已。”

她没有否认跳槽,也没有谈论薪资。她只是想让聚光灯挪开一点。

但聚光灯怎么可能挪开?罗福莉在DeepSeek积累的MoE架构经验,恰好是小米最需要的技术方向。小米从2023年开始全力投入大模型,搭建了万卡GPU集群、已有六千五百多张GPU资源。雷军的野心很清楚:让大模型成为“人车家全生态”的大脑,让AI真正跑在手机、汽车、智能家居里。

2025年11月12日,靴子落地。罗福莉正式官宣加入小米,担任MiMo大模型负责人。

她在朋友圈写了一段话:“智能终将从语言迈向物理世界。我正在Xiaomi MiMo,和一群富有创造力、才华横溢且真诚热爱的研究员,致力于构建这样的未来,全力奔赴我们心目中的AGI。”

入职仅一个多月后的12月17日,罗福莉完成小米首秀。她发布了MiMo-V2-Flash大模型——参数规模309亿,激活参数15亿。在代码生成和智能体测试中,排名全球开源第二,大部分评测基准超过了DeepSeek-V3.2和K2-Thinking。

那天她的表现,被一些媒体形容为“略显紧张”。讲的内容以技术解读为主,PPT翻得飞快,语速也偏快。但台下的人听得认真——因为台上这个黑白格子衫、说话还有点拘谨的年轻人,一个月前刚把DeepSeek-V2的经验带进了小米。

2026年3月的中关村论坛上,罗福莉和杨植麟、张鹏等AI圈大佬同台讨论。台下记者拍到她穿着黑白格子衫和牛仔裤上台,有人评价她是“台上穿着最松弛的一位嘉宾”。

被问到未来一年大模型的关键词是什么,她说:“进化。自进化机制会呈指数级加速科学研究,它可以像顶尖科学家一样去探索。”

记者追问:“如果AI能自我进化了,人还能做什么?”

她想了想,回答:“更有创造性的事。”

讲完罗福莉的故事,我一直在想一个问题——

“天才少女”这个标签,到底是谁需要?

媒体需要,因为“95后天才年薪千万”天生就是流量密码。读者需要,因为我们都喜欢看“别人家孩子”的故事。被卷得不行的同行们也需要,因为“反正人家是天才”这句话可以让他们心安理得地停在原地。

但罗福莉本人从头到尾都在拒绝这个标签。

她说自己小学成绩垫底、大学排名靠后、转专业前连Python都不会写。她说ACL八篇论文是一边赶稿一边哭出来的。她说自己在阿里的第一个大项目失败了。她说每一次进步都是“一步一步挪上去的”。

不是谦虚。是真的。

她的故事里,真正值得我们每个人想一想的,不是“天才为什么能成功”,而是——如果一个人从小学就习惯落后、习惯从垫底开始、习惯每次只往前走三五名,这种节奏坚持二十年,最后能走多远。

这个问题,不是问罗福莉的。

是问我们自己的。