马斯克100亿美元买的不只是Cursor，是一张AI竞赛的入场券|agent|cursor|kimi|spacex|埃隆_马斯克|埃隆·马斯克|编程

月初，OpenAI的两大宿敌Anthropic和马斯克，突然结盟了。

这事的前因要追溯到今年2月。当时马斯克在X上连发数帖，指责Anthropic"woke""邪恶""反人类"，说这家公司"仇视文明"。事后来看，这次攻击并非性格使然——xAI内部使用Cursor工作时，突然发现Claude模型在自家账号里被禁用了。

当时还在xAI的联合创始人吴宇怀，在全员信里写道："Anthropic更新了政策，要求Cursor不得向其主要竞争对手提供Claude模型调用能力。"他补了一句颇有趣的话："这是坏消息也是好消息。我们的生产力会被影响，但这也敦促我们开发自己的编码产品和模型。"

一个月后，剧情急转。SpaceX和Cursor宣布战略合作：编程和知识类工作AI模型的训练上展开深度合作；SpaceX还获得了以600亿美元收购Cursor的权利，或向后者支付100亿美元合作费用。

注意"编程"这个定语。马斯克花100亿，想清楚了一件事。

Cursor早期投资人、T3创始人Theo Browne最近发了个视频。他本是想喷Anthropic和SpaceX"蝇营狗苟"，却抛出了一个另类分析：哪怕只是交换到Cursor的用户数据，这100亿也值回票价。

为什么这么说？

我们和AI的对话是一来一回的。你提需求，它给解答；coding agent同理，只不过返回的是代码。一次高质量对话的完整过程——用户提示、模型思考、agent规划、输出代码、验证——所有这些东西合起来，叫做一个完整的Agentic Loop。这就是高价值的训练数据，喂给模型做强化学习，能切实提高实战表现。

Cursor有的，SpaceX想要的，就是这些数据。

作为模型厂商，这种高质量数据的最直接来源，只能是自己开发的coding agent产品——Anthropic的Claude Code、OpenAI的Codex、Kimi的Kimi Code。被Anthropic"封号"之后，吴宇怀提出开发xAI自己的coding产品，不是赌气，是看清楚了：没有自己的编码产品，就没有高质量的强化学习数据；没有数据，就训练不出真正能打的coding模型。

模型厂商想做出来真正实战能力强的编程模型，做自己的coding agent产品是唯一路径。

这里有个关键区分。大语言模型用全网语料训练，似乎能解答万物，但"能回答"不等于"高质量回答"。用GitHub上数以亿计的代码条目训练，是"学习结果"的逻辑——编码任务的结果可验证，代码能不能运行，测试能否通过，结果摆在那里。

但通往结果的过程，是多步骤决策、错误纠正、意图对齐的复杂链条。用户的接受、拒绝、补全、撤销、追问、甚至搞不定时的辱骂——都是过程信号。

强化学习有两种监督方式。结果监督只看最后是否跑通，但会催生"奖励黑客"：模型为跑通可能写出冗余、脆弱的代码，测试过了就以为自己学对了。过程监督则对推理路径每一步打分，而这些信号只在coding agent运行环境里才能诞生。GitHub仓库里只有结果，看提交历史、PR，都找不到有效的过程信号。

缺乏自主可获得的过程信号时，一些厂商会采用"蒸馏"——给同样输入，老师模型输出什么，学生就学着输出什么。但蒸馏即便能获取思维链，得到的仍更接近结果，而非老师模型内部的概率分布。学生推理中一旦偏离老师轨迹，哪怕一个token不对，都可能发生偏离。

这背后是强化学习的基础限制：策略梯度定理要求，优化样本最好由当前正在优化的模型自己产生，这叫on-policy数据。蒸馏别家模型、在别人产品里产生的数据，都属于off-policy数据。模型能学到东西，但学不到老师内部的概率分布信息。

Cursor自己就是coding agent产品，掌握着最真实、有效、高质量的训练数据。Cursor产品本身，就是coding模型在实战环境中的最佳训练场。

年初Cursor的"翻车"事件，恰好证明了这点。

当时网友在公开代码片段里发现了Kimi的模型ID，截图传遍开发者社群。Cursor副总裁Lee Robinson出面澄清："Composer 2确实是从开源底座出发的。最终模型大约只有1/4的算力来自底座，剩下3/4是我们自己训出来的。"几小时后，联创Aman Sanger道歉："一开始没提Kimi底座是个失误。"

五天后，Cursor放出完整技术报告：底座是Kimi K2.5，授权方Firworks AI，流程是在K2.5上做训练，再继续大规模强化学习。关键在于，Composer 2的RL运行在真实的Cursor会话中，使用与生产部署完全相同的工具和harness。

Cursor把这叫做"实时强化学习"：模型checkpoint直接部署到生产环境，观察用户响应，收集数据，聚合成奖励信号——最快每5小时迭代一次版本，继续部署，循环往复。

最极致的案例是Cursor的自动化代码补全功能Tab，每天处理超过4亿次请求。每当用户输入字符、移动光标，模型预测下一步动作；置信度高就显示建议，用户按tab即接受。该功能采用在线强化学