刷Token走火入魔！Meta员工写外挂作弊冲榜，1个月烧掉200万美元

新智元

2026-04-26 09:05 ·北京 ·《新智元》官方网易号

新智元报道

编辑：元宇

【新智元导读】Meta内部搞了个AI用量排行榜「Claudeonomics」，8.5万员工拼消耗、冲段位、抢「Token传奇」称号。有人一个月烧掉200万美元，有人写外挂冲榜，有人挂着Agent睡觉也在跑——硅谷卷Token，已经卷到走火入魔了。

一个人，30天，烧掉3285亿token！

按Anthropic公开定价粗算，这些烧掉的算力成本接近200万美元。

4月初，The Information记者Jyoti Mann在X上首次曝光Meta内部「Claudeonomics」排行榜，30天全公司token总消耗超60万亿。

这些疯狂的数字，来自Meta内部一个名叫「Claudeonomics」排行榜的比赛，8.5万人参与的烧token大赛，只展示前250名。

从铜牌、银牌、金牌、铂金、翡翠，一路升到「永恒会话」（Session Immortal），再到最高荣誉「Token传奇」（Token Legend）。

没错，烧token都烧出段位来了。

这笔账到底有多大？The Information专门做了一个计算器来拆解：

The Information报道中附带的交互式token成本估算器，按Claude Opus 4.6占86%的模型配比、70%缓存命中率估算，1万亿token理论成本约550万美元。

当然，这只是按公开价的估算，但数据量级本身已经足够炸裂。

如果放到整个Meta来看，这个数字更恐怖：最近一个月token总消耗约60.2万亿。

这是什么概念？

The Information做了一个估算：美国国会图书馆全部藏书折算约2.66万亿token，Meta的Llama 3训练数据是15万亿token，人类历史上所有出版书籍加起来估算约20万亿token。

Meta员工30天烧掉的token量，是人类全部出版物的3倍！

这还只是开始。一周之后，这个数字据报道跳到了73.7万亿。

消息传开后，业内知名技术博主Gergely Orosz在X上一针见血地评论：

Token用量已经是Meta绩效评估的一部分。聪明人在刷他们认为领导想看的指标，就这么简单。

这已经不是某个工程师在用AI写代码的故事了，而演变成一场超大规模AI消耗竞赛游戏：

覆盖数万人，有排名、有称号、有荣誉体系。

曝光后两天

排行榜就消失了

The Information的报道发出后，Meta内部炸开了锅。

有员工在内部讨论区写道：

我建议大家算算这背后的能源消耗。要不是真的在发生，我会以为是个笑话。

到了周三，排行榜从Meta内网消失了。

Meta发言人对外的说法是：排行榜是由创建者自行撤下的，不是公司下令。

公司强调，员工评估看的是「实际交付影响」，不主张把个人token数据作为评估绩效的主要方式。

但Meta发出的信号是矛盾的。

据The Information报道，Meta内部一个名为Checkpoint的AI驱动绩效追踪系统，确实将token使用量列为数据点之一。

排行榜虽然撤了，但公司官方的AI Insights仪表盘仍然对所有员工开放，你随时可以查看自己和团队的token消耗。

Meta发言人表示，AI Insights仪表盘的目的是帮助公司了解各组织如何向AI原生的工作方式转型，它提供的洞察不只是token用量，还包括代码相关指标和其他维度。

虽然，Meta停掉了排行榜，嘴上说不以token论英雄，但排行榜的逻辑仍然存在，这让不少员工感受到公司释放出的信号并不完全一致。

「代码行数」

披上token新衣

这个排行榜虽然只存在了几天，但它已经催生出了一套「刷分」操作。

据The Information援引匿名员工描述，一些Meta工程师想出了各种办法来膨胀自己的AI使用指标。

比如，一些工程师会让AI Agent 生成大量细小改动，这些改动对功能帮助有限，但每次仍会形成一次commit，从而抬高其AI使用指标。

量上去了，排名自然好看。

还有人开发了转录机器人，挂在会议里自动做记录。

有的人甚至专门鼓励同事来用自己开发的转录工具，因为只要别人通过你的工具跑token，消耗量就算在你头上。

类似的事不只发生在Meta。

亚马逊电商部门去年也出现过一个案例。

一位经理暗示团队应该更多使用AI编程工具Cline。于是团队里有人直接改了代码，让每次和Cline的对话看起来消耗了10倍的token。

这个团队的AI使用排名迅速冲到了分部前列。

不过到今年年初，亚马逊调整了系统，这个「作弊码」失效了。

这些故事看起来有些荒诞，但熟悉软件行业历史的人一定不陌生。

Box CEO Aaron Levie直言：这让他想起了AI出现之前，行业里围绕「用代码行数衡量程序员产出」的那些老争论。

代码行数也曾经被当作生产力指标。

结果工程师们学会了把一行能写完的逻辑拆成十行：指标涨了，产出没变，甚至更差了。

现在，同样的故事只是换了个计量单位：代码行数变成了token数。刷行数变成了刷commit、挂转录机器人、改系统让数字翻10倍。

指标可量化，又和绩效沾边，就一定可能会「玩坏」。

据The Information报道，有Meta员工私下承认，那些token用量低的人，有时候会焦虑自己看起来「不够AI native」。

同时这位员工也认为，高token用量不应该成为一种身份符号，因为它并不是生产力的好指标。

不卷token的公司

怎么玩？

既然刷token排名的逻辑漏洞这么明显，有没有企业选择另外一条路？

执法装备的公司Axon选择了把AI激励绑定在业务交付上，而不是消耗量上。

他们的做法是团队如果利用AI工具超额完成年度路线图目标15%以上，就能拿到现金奖金。

Axon总裁Josh Isner透露，今年公司各团队集体的路线图超额幅度正在追踪到30%左右，主要归功于Claude Code和Cursor的使用。

预计今年在AI编程工具上的支出将达到「数千万美元」级别。

Isner认为，当你引入「尽量多用这个工具我们就付钱」这种考核的时候，风险越来越大：

你怎么知道你得到的是你想要的结果，或者说，到底有没有任何结果？

Aaron Levie并不鼓励tokenmaxxing，也不认为它会在硅谷之外的大公司里广泛流行。

不过他也表示，自己理解这种冲动，因为当前阶段需要先让工程师充分试用这些工具。

他选了另一种方式：既然AI能让团队更高效，那就把产品目标定得更高。员工能不能完成这些加码后的目标，直接影响薪酬。

但Levie也没有一刀切地否定token消耗。他认为应该容忍一定程度的token「浪费」，因为那意味着团队在尝试新东西：

硅谷现在正处于这样一个阶段，你得让工程师去试这些工具。

Levie愿意为试错买单，但不愿意把「谁烧得最多」变成一种排名机制。

Axon和Box代表了一种观点：token只是弹药，你用了多少不重要，你使用它做出了什么才重要。

当油表被当成速度表

Meta的排行榜被撤了，但背后催生它的那股力量依然强大：

硅谷高管们集体把「多烧token」等同于「高生产力」的叙事一点也没有减弱。

英伟达CEO黄仁勋

英伟达CEO黄仁勋就曾在All-In Podcast上说过一句被广泛引用的话：

如果一个年薪50万美元的工程师，连至少25万美元的token都没用掉，他会「高度警惕」。

他甚至设想了一个未来：Token会成为招聘时的标配福利，就像牙科保险和免费午餐一样。工程师面试时会问：「这份工作给我配多少token？」

Meta CTO Andrew Bosworth在今年2月的一次科技会议上提到，如果一个顶级工程师花掉相当于自己年薪的token成本，却能把生产力提升到10倍，这笔钱就好比「白送的钱」，应该继续投，甚至不必设上限。

前OpenAI和特斯拉AI科学家Andrej Karpathy则是再造新词：token消耗量俨然成了AI时代个人能力的新标尺：

你的token吞吐量是多少？你能指挥多少token吞吐量（Token throughput）？

当行业大佬都在说「多烧token就是高生产力」，大家听到的信号只有一个：不烧就是落后，这种FOMO（Fear of Missing Out，错失恐惧）会迅速从「我要不要多用一点AI」变成「我敢不敢不用」。

没有人想成为团队里那个token用量垫底的人，而排行榜只是把这种焦虑变成了一场公开竞赛。

但问题恰恰在这里。

Token消耗量之所以被追捧，是因为它是目前最容易量化的AI使用指标。

你很难衡量一个工程师「用AI之后交付质量提升了多少」，但你可以精确地看到他烧了多少token，就它和「代码行数」一样。

但容易量化，不等于值得量化。

代码行数对应的是写代码的动作，并不代表软件质量；Token消耗量衡量的是API调用次数，不等于工程产出。

这就好比油表能告诉你烧了多少油，但它不代表速度和里程。

而AI Agent时代，只会让这个问题更尖锐。

NYT近期的报道描述了一种新景象：

工程师同时开十几个窗口，放出几十个Agent并行跑任务，有些Agent系统被设计成24/7不间断运行，在人类睡觉的时候还在持续消耗token。

一个全职Agent一周可以跑掉7亿个token。

当token消耗可以脱离人类干预自动增长的时候，拿消耗量来衡量人的生产力，就更加荒谬了。

虽然，Meta的Claudeonomics排行榜已经下线，但它折射出一个人类在技术采用上的「经典悖论」：

当一个工具的使用量可以被精确计量、可以被公开排名、可以和绩效感知挂钩，它就必然从工具变成表演。

代码行数是这样，commit次数是这样，专利申请数、论文引用量、OKR完成率，全都是这样。

每一个曾被当作生产力代理指标的数字，最终都催生出了一套刷分产业。

现在轮到了token。

下一个被异化的指标会是什么？

也许是Agent的并发数量，也许是AI生成代码的合并率，也许是某种我们今天还想象不到的新数字。

只要企业还分不清「鼓励用AI」和「考核AI带来的真实产出」，类似的刷榜游戏就不会停。

参考资料：

https://www.theinformation.com/articles/tokenmaxxing-tide-may-turning?rc=epv9gi

https://www.theinformation.com/articles/meta-employees-vie-ai-token-legend-status?rc=epv9gi

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴