200美元月费,两个AI编程工具,算力差距能拉到5倍?这不是营销话术,是一个工程师跑了12组实验后算出来的账。
事情要从作者用Claude Code的Max 20x计划说起。同样是200美元/月,干同样的活,Claude Code的利用率卡在16%,而Cursor的token额度早烧光了。后来他搞出了并行代理把利用率怼到50%以上,突然意识到一个问题:这俩工具的定价根本不是一个算法。
直接比token数量?没戏。Cursor有两套token池(API池和"Auto + Composer"池),计费规则完全不同。作者干脆发明了一个新指标——"agent-hours"(代理小时数):给定每月的token容量,你到底能跑多少小时的AI代理?
实验设计:12组对照,测的是"能跑多久"而非"跑得多快"
作者花了大量篇幅解释实验的粗糙性。这不是实验室级别的严谨测试,而是工程师式的实用主义:控制变量、记录消耗、反复验证。
核心发现很直白。在200美元/月的个人计划下,Claude Code能支撑约100个agent-hours,Cursor Ultra只有约18个agent-hours。换算下来,Claude Code的容量大约是Cursor的5.5倍。
但作者反复强调:这不是"便宜5倍"的意思。
容量不等于产出。你能跑100小时不代表能完成5倍的工作量——代码质量、任务复杂度、模型选择都会扭曲这个结果。这个数字只回答一个问题:同样月费,谁的油箱更大?
Cursor的定价陷阱:两套token池的障眼法
Cursor Ultra的200美元月费拆成了两个池子,这才是故事真正有趣的地方。
第一池叫"Frontier API Credits",给的是最前沿模型(Opus 4.6级别),但额度极小——按作者估算,只够跑约5.5个agent-hours。第二池叫"Composer Credits",额度大得多,能撑约12.5个agent-hours,但模型是Cursor自己调优的版本,不是原生Opus。
用户以为买了"无限访问最强模型",实际是"少量最强模型 + 大量次优模型"的捆绑包。作者算了一笔账:如果你坚持用Opus 4.6跑满全程,18小时不到就见底;如果混用Composer,能撑到18小时,但体验不是一回事。
这种设计让比价变得极其困难。Claude Code的200美元是单一池子,Sonnet/Opus随便切;Cursor则是强制套餐, frontier模型像高级配菜,量少且贵。
那Claude Code怎么做到的?利用率是门手艺
5倍差距的核心不在定价策略,而在一个技术细节:Claude Code允许你把token利用率怼得很高。
作者在第一部分发现,默认用法下利用率只有16%——大量token被系统预留或闲置。第二部分他开发了并行代理方案,把多个任务同时塞给Claude Code,利用率飙升到50%以上。这意味着同样200美元,实际吞吐量翻了几番。
Cursor Ultra有没有类似空间?作者没测,但暗示其架构可能不支持这种压榨。Claude Code的"Max"模式本质上是为高并发设计的,Cursor的Composer则偏向串行交互。
换句话说,Claude Code的定价优势有一半是"能榨出来"的,不是账面上直接写的。
5倍数字背后的三个坑
作者在结尾列了三条警告,每条都在拆自己的台——这种自我拆台的诚实,反而让结论更可信。
第一,agent-hours是代理小时数,不是有效工作小时。AI会发呆、会重试、会生成废代码,100小时里可能只有60小时在真正推进任务。
第二,模型选择扭曲一切。Opus 4.6是Claude Code的顶配,也是Cursor frontier池的顶配,但Cursor Composer用的是定制模型。如果你不需要Opus级别的推理能力,Composer的性价比可能反超。
第三,并行代理有门槛。作者的50%利用率方案需要代码改造和任务拆分,不是开箱即用。普通用户可能卡在16%利用率,5倍差距瞬间缩水到1.7倍。
作者的原话是:"我希望这个token和工具定价分析对你有帮助——它对我帮助很大。"然后补了一句:"文章很长,但实验波动性太大,我觉得有必要展示所有 messy details(混乱细节)和我的思考过程。"
这种"我知道数据不完美,但比没有强"的态度,贯穿全文。
最后留个钩子。作者在实验笔记里提了一句:Cursor的API池和Composer池的消耗速度差异,可能暗示了两套后端架构的成本结构完全不同——但这需要更多数据验证。如果你也在用200美元档的AI编程工具,你的实际利用率是多少?
热门跟贴