打开网易新闻 查看精彩图片

传说中的DeepSeek天才少女、雷军曾用千万年薪挖角的罗福莉,近日在X平台发布了她的首条推文,分享了她带领MiMo团队打造Agent时代全栈模型的心路历程。

从Chat到Agent:一次"安静的伏击"

罗福莉将这次转型称为"安静的伏击"——并非刻意策划,而是从Chat到Agent的范式转变发生得太快,快到连团队自己都几乎不敢相信。

她透露,改变一切的是第一次体验复杂Agent脚手架的经历。她用的词是"orchestrated Context"(编排过的上下文),也就是现在比较火的Harness Engineering。

"第一天就被震惊了,"她写道。随后她试图说服团队去用,但没成功。于是她下了一个硬性命令:

MiMo团队里,明天对话数不到100条的人,可以辞职了。

这个管理风格相当激进,但有效。一旦团队的想象力被Agent系统的能力点燃,这种想象力就直接转化成了研发速度。

提前押注的架构优势

罗福莉透露,1T底座模型几个月前就开始训练了,当时的目标是长上下文推理效率。采用了两大核心技术:

Hybrid Attention机制(混合注意力):不让所有token都互相关注,而是让一部分用全局注意力、一部分用局部注意力,大幅降低计算成本。

MTP推理(Multi-Token Prediction):一次预测多个token而不是一个一个生成,推理延迟和成本都大幅下降。

这些架构决策在当时并不时髦,但它们恰好成了Agent时代的结构性优势——支持百万token上下文窗口。

为什么MiMo团队能这么快

罗福莉在做DeepSeek R1的时候亲眼见证过,她的总结是:

基座与基础设施研究周期很长。你需要在它产出回报的一年前就有战略定力。

后训练的敏捷性是另一种能力:靠产品直觉驱动评估,压缩迭代周期,及早捕捉范式转换。

还有那些不变的东西:好奇心、敏锐的技术直觉、果断的执行力、全力以赴。

以及一样很容易被低估的东西:对你正在为之构建的世界,发自内心的热爱

开源承诺

罗福莉在推文中确认:模型会开源的,等模型稳定到值得开源的时候。

原文来源:X @_LuoFuli / 宝玉@dotey