月初,OpenAI的两大宿敌Anthropic和马斯克,突然结盟了。
这事的前因要追溯到今年2月。当时马斯克在X上连发数帖,指责Anthropic"woke""邪恶""反人类",说这家公司"仇视文明"。事后来看,这次攻击并非性格使然——xAI内部使用Cursor工作时,突然发现Claude模型在自家账号里被禁用了。
当时还在xAI的联合创始人吴宇怀,在全员信里写道:"Anthropic更新了政策,要求Cursor不得向其主要竞争对手提供Claude模型调用能力。"他补了一句颇有趣的话:"这是坏消息也是好消息。我们的生产力会被影响,但这也敦促我们开发自己的编码产品和模型。"
一个月后,剧情急转。SpaceX和Cursor宣布战略合作:编程和知识类工作AI模型的训练上展开深度合作;SpaceX还获得了以600亿美元收购Cursor的权利,或向后者支付100亿美元合作费用。
注意"编程"这个定语。马斯克花100亿,想清楚了一件事。
Cursor早期投资人、T3创始人Theo Browne最近发了个视频。他本是想喷Anthropic和SpaceX"蝇营狗苟",却抛出了一个另类分析:哪怕只是交换到Cursor的用户数据,这100亿也值回票价。
为什么这么说?
我们和AI的对话是一来一回的。你提需求,它给解答;coding agent同理,只不过返回的是代码。一次高质量对话的完整过程——用户提示、模型思考、agent规划、输出代码、验证——所有这些东西合起来,叫做一个完整的Agentic Loop。这就是高价值的训练数据,喂给模型做强化学习,能切实提高实战表现。
Cursor有的,SpaceX想要的,就是这些数据。
作为模型厂商,这种高质量数据的最直接来源,只能是自己开发的coding agent产品——Anthropic的Claude Code、OpenAI的Codex、Kimi的Kimi Code。被Anthropic"封号"之后,吴宇怀提出开发xAI自己的coding产品,不是赌气,是看清楚了:没有自己的编码产品,就没有高质量的强化学习数据;没有数据,就训练不出真正能打的coding模型。
模型厂商想做出来真正实战能力强的编程模型,做自己的coding agent产品是唯一路径。
这里有个关键区分。大语言模型用全网语料训练,似乎能解答万物,但"能回答"不等于"高质量回答"。用GitHub上数以亿计的代码条目训练,是"学习结果"的逻辑——编码任务的结果可验证,代码能不能运行,测试能否通过,结果摆在那里。
但通往结果的过程,是多步骤决策、错误纠正、意图对齐的复杂链条。用户的接受、拒绝、补全、撤销、追问、甚至搞不定时的辱骂——都是过程信号。
强化学习有两种监督方式。结果监督只看最后是否跑通,但会催生"奖励黑客":模型为跑通可能写出冗余、脆弱的代码,测试过了就以为自己学对了。过程监督则对推理路径每一步打分,而这些信号只在coding agent运行环境里才能诞生。GitHub仓库里只有结果,看提交历史、PR,都找不到有效的过程信号。
缺乏自主可获得的过程信号时,一些厂商会采用"蒸馏"——给同样输入,老师模型输出什么,学生就学着输出什么。但蒸馏即便能获取思维链,得到的仍更接近结果,而非老师模型内部的概率分布。学生推理中一旦偏离老师轨迹,哪怕一个token不对,都可能发生偏离。
这背后是强化学习的基础限制:策略梯度定理要求,优化样本最好由当前正在优化的模型自己产生,这叫on-policy数据。蒸馏别家模型、在别人产品里产生的数据,都属于off-policy数据。模型能学到东西,但学不到老师内部的概率分布信息。
Cursor自己就是coding agent产品,掌握着最真实、有效、高质量的训练数据。Cursor产品本身,就是coding模型在实战环境中的最佳训练场。
年初Cursor的"翻车"事件,恰好证明了这点。
当时网友在公开代码片段里发现了Kimi的模型ID,截图传遍开发者社群。Cursor副总裁Lee Robinson出面澄清:"Composer 2确实是从开源底座出发的。最终模型大约只有1/4的算力来自底座,剩下3/4是我们自己训出来的。"几小时后,联创Aman Sanger道歉:"一开始没提Kimi底座是个失误。"
五天后,Cursor放出完整技术报告:底座是Kimi K2.5,授权方Firworks AI,流程是在K2.5上做训练,再继续大规模强化学习。关键在于,Composer 2的RL运行在真实的Cursor会话中,使用与生产部署完全相同的工具和harness。
Cursor把这叫做"实时强化学习":模型checkpoint直接部署到生产环境,观察用户响应,收集数据,聚合成奖励信号——最快每5小时迭代一次版本,继续部署,循环往复。
最极致的案例是Cursor的自动化代码补全功能Tab,每天处理超过4亿次请求。每当用户输入字符、移动光标,模型预测下一步动作;置信度高就显示建议,用户按tab即接受。该功能采用在线强化学
热门跟贴