5月14日,马斯克亲自下场,把xAI的Grok Build从封闭测试推向更广泛的公测。我在当天刷了99美元,把它丢进一个真实的生产代码库——4.7万行TypeScript的Kafka消费者服务,过去三个月我一直用Claude Code维护它。

48小时后,我发现了三件事,大部分评测都没提到。

打开网易新闻 查看精彩图片

先说钱的事。 headline价格是每月299美元的SuperGrok Heavy,99美元是前六个月的"尝鲜价",到期自动跳回原价,没有降级选项。要么第七个月开始付299,要么取消、彻底失去访问权限。这个套路SaaS行业用烂了,但值得在付款前看清楚。

打开网易新闻 查看精彩图片

99美元买到什么:8个并发的AI子代理、Plan Mode、Arena Mode、grok-code-fast-1模型,以及200万token的上下文窗口。作为对比,Claude Code的标准上下文档位大概是这个数字的四分之一。

安装很干净,单文件CLI,macOS和Linux原生支持,Windows得用WSL2。xAI说原生Win32版本在路线上,但没给时间表。

真正让我停下来的,是Plan Mode的第一个陷阱。我让Grok Build重构Kafka消费者,支持批量确认,同时不破坏现有的"至少一次"投递语义。它没直接执行,而是先输出了一份七步计划,每一步都预览文件级diff,并标出可能破坏现有不变量的地方。

第四步指出:现有消费者的位移提交逻辑和消息处理器跑在同一个try-catch里。如果我不把这两件事拆开,批量确认时处理器失败仍会提交位移,消息会静默丢失。

同一个任务,Claude Code 4.7上周给我生成了diff,单元测试全过——因为测试没覆盖部分批次失败的场景。bug直到集成测试才暴露。Grok Build在计划阶段就拦住了。

打开网易新闻 查看精彩图片

但Plan Mode也有代价。我测试的另一个任务,它花了12分钟生成计划,而Claude Code 4.7在"Yolo模式"下4分钟跑完。时间换安全,还是速度换风险,这个选择Grok Build交给了用户,Claude Code默认替你选了后者。

Arena Mode是另一个被低估的设计。它让两个模型并行执行同一任务,自动对比输出。我跑了一次复杂重构,主代理和"挑战者"各自生成方案,系统高亮差异行,让我选。这本质上是用算力买决策信心,适合那种"改错一行生产环境就炸"的场景。

8个子代理不是装饰。我同时开了四个:一个读代码、一个写测试、一个跑静态分析、一个查文档。它们在一个共享上下文中协作,而不是各自为政。Claude Code的上下文隔离设计更安全,但跨文件追踪时经常重复加载,200万token的窗口在这里显出了价值。

48小时后我的判断:如果你现在的代码库有严格的测试覆盖、团队对AI生成代码有成熟的Review流程,Claude Code的速度优势可能更值钱。但如果你经历过"测试全绿、上线就崩"的凌晨,Grok Build的计划阶段审查和Arena对冲,可能是更便宜的保险。

至于那99美元会不会变成第七个月的299?我设了日历提醒。这个产品的真正成本不是价格标签,是它逼你做的那些选择。