小米大模型团队负责人罗福莉判断,通用人工智能将在两年内实现。她更在意的是另一件事:当AI能复刻研究员的科研成长路径,甚至"自己训练自己",人还剩下什么?
一个残酷的自我发现
罗福莉在访谈开场就抛出了一个让她自己感到不适的判断。
「我之前认为我们自己做的工作已经足够有创造力、足够不会被Skill化、不会被Workflow化。但我现在发现,它竟然也能!」
这个发现来自她对Agent能力的近距离观察。只要把近期研究的Context(上下文)告诉Agent,它甚至能复原研究员的科研成长路径,并像研究员一样讨论问题。
她由此提出更激进的推论:未来模型可能也能训练出人类能训练出的模型,甚至训练出更强模型,「自己左脚踩右脚就提升了」。
这不是遥远的科幻场景。罗福莉认为,AI会先吸收所有人的智能,再靠自己产生更强智能,「这是一两年内会发生的事」。
她对AGI进程的估算相当具体:现在大约走到20%,今年至少能到60%—70%,「两年内应该能实现」。
但颠覆的顺序有先后。工作模式会先死,生活模式暂时安全。
「因为工作直接产生生产力价值,生活场景的改造更依赖机器人和硬件进展。」她判断,未来大部分人会被迫抛弃原来的工作方式。
她给2026年的定义不是「Agent元年」,而是「生产力加速变革的时代」。今年很多人会直接感受到,大量工作不再需要自己完成。
这种替代不限于程序员。任何接触Agent的人都会发现,自己的许多任务正在被接管。
她把问题抛回给每个从业者:当很多工作可以交给AI,人究竟还剩下什么意义和价值?
OpenClaw为什么划时代
罗福莉明确把OpenClaw定义为「划时代的Agent框架」。
她的区分标准很清晰:产品是人直接交互能感受到的那一层,而Agent框架不只定义交互层,还定义系统怎样跟模型沟通。
它能理解模型的长板、短板,做成本优化和调度。UI只是最薄的一层,真正重要的是背后那套厚重的中间层。
一个好的Agent框架不是简单包装模型,而是弥补模型行动上的缺陷。
她列举了具体设计:持久记忆、消息通道、定时任务、心跳任务、自我更新。这些功能都是为了给模型补充行动Context。
她的底层判断是:大模型拿到越好的Context,执行效果越好。框架的核心价值,就是把模型自己拿不到的环境信息、任务状态和行动上下文补进去。
Claude Code也是复杂Agent框架,但因为黑盒,外界不知道它如何设计,也无法修改。
OpenClaw的冲击在于开源:用户不仅可以用,还可以基于自己的场景改memory、改workflow、改Multi Agent(多智能体)逻辑。
罗福莉自己就让Claude Opus 4.6帮她重写过记忆系统和多智能体系统。她称这种「原生可操纵性」带来了很大冲击。
一个人改框架,进步很慢;一群人在飞书群里一起用、一起改、互相激发想象力,框架几小时就能迭代一轮。
她认为,这是开源Agent框架最重要的价值。
框架能弥补多少模型短板
罗福莉不否认,OpenClaw的上限很大程度来自Claude Opus 4.6。
但她真正看重的是另一件事:当Opus把框架改好后,再切到Sonnet、国内模型,甚至小米自己的MiMo-V2-Pro,也会觉得很强。
她由此判断,复杂Agent框架能弥补大量模型短板,让中层模型在多数生活场景和轻代码提效场景里,接近顶尖模型体验。
她不认同「模型变强后,Agent框架就不重要了」。
「不可能所有场景都用最顶尖模型,因为太贵。」更可能发生的是,Agent和模型同时进化,同一水平的模型变得越来越小。
她甚至判断,现在激活10B(100亿)参数的模型,过一年可能做到Claude Opus 4.6的水平,而且成本极低。
这意味着什么?顶尖模型的能力会快速下沉到中端模型,而框架是加速这个过程的催化剂。
两个时代的分野
罗福莉把大模型发展划为两幕剧。
第一幕是Chat,主要靠预训练和短上下文对话释放智能;第二幕是Agent,核心变成复杂Agent框架、多轮长程任务、后训练和强化学习scaling(规模扩展)。
她强调,「上一个时代的成功并不意味着下一个时代的领先」,现在大家重新站到同一起跑线。
这个判断直接指向国内大模型厂商的位置。
罗福莉判断,国内具备1T(1万亿)基座的模型厂商——Kimi、MiMo等——距离Claude Opus 4.6只有两三个月的代差。如果反应速度足够快,可以追上当代的Claude。
关键变量是团队的研究水平、技术敏捷程度,以及能否拥抱新范式。
她认为,至少过去三个月,Agent路径已经变得更清晰,Anthropic走在前面。
过去大家误以为Claude做很多Context工程,是因为模型结构不够先进、为成本妥协。现在才发现,那是为了配合模型发挥更强的整体任务完成度。
真正的赛点在哪里
罗福莉认为,真正的赛点是Agent的后训练,更具体地说,是在Agent上做好强化学习scaling。
1T参数不是泛泛意义上的大模型门槛,而是Agent要接近Claude Opus 4.6水平的入场券。
参数量和Context共同决定智能上限,要达到当前最强Agent水平,可能需要1T以上总参数。
除了足够强的基座模型,还需要足够快的后训练和范式迁移能力。目前中国还没有同时具备两者的公司。
同时,要拿到下一阶段领先,就要继续思考更大规模scaling。
问题不是简单扩大参数量,而是到底scaling什么、在哪类芯片上scaling、怎样匹配未来Agent框架和推理需求。
Chat时代,研究、预训练、后训练的用卡比例可能是3:5:1,预训练占绝对主导。
Agent时代,更合理的比例可能变成3:1:1,即研究用卡最多,预训练和后训练相当。她说,顶尖团队的预训练和后训练用卡比例,应该已经接近1:1。
算力瓶颈会出现在哪里
Agent进入研究流程后,罗福莉认为,算力卡反而变得更紧张。
过去一个idea,从写代码到设计评估可能要一两周,现在一两个小时就能做完,十个idea可以交给不同agent并行验证。
研究效率大幅提升后,实验并行量上来,训练卡、研究卡、推理卡都会成为关键瓶颈。
她判断,随着Agent框架变强、模型能力提升、成本下降,推理需求会立刻爆发,几倍到10倍的空间可能马上出现。
因为Agent任务更长、更复杂,token消耗更高。
她特别提到,很多卡的瓶颈在存储,如何在现有产能下做更好、更低成本的推理,会成为非常关键的问题。
什么才是真正的Agent能力
罗福莉对2025年很多Agent叙事并不认可。
她认为,许多模型只是换了更复杂的系统提示词,加一点环境反馈,离真正工业级可用还很远。
真正的Agent能力,要看模型接入Claude Code、OpenClaw这类复杂框架后,能否稳定理解框架并完成任务。
她甚至认为,一些Agent Benchmark(基准测试)高分,并不代表模型真的具备可泛化的Agent能力。
这个判断很尖锐:当前市场上的很多「Agent」,可能只是包装过的提示工程,而非真正的系统级能力。
罗福莉的访谈没有给出标准答案,但她划出了清晰的判断边界——两年内AGI到来,工作模式先被颠覆,Agent框架是下一个战场,后训练和强化学习scaling是真正的赛点。
当AI能复刻研究员的成长路径,甚至自己训练出更强的自己,人究竟还剩下什么不可替代的价值?这个问题,她抛给了每一个正在读这篇文章的人。
热门跟贴