打开网易新闻 查看精彩图片

新智元报道

编辑:元宇

【新智元导读】Meta内部搞了个AI用量排行榜「Claudeonomics」,8.5万员工拼消耗、冲段位、抢「Token传奇」称号。有人一个月烧掉200万美元,有人写外挂冲榜,有人挂着Agent睡觉也在跑——硅谷卷Token,已经卷到走火入魔了。

一个人,30天,烧掉3285亿token!

按Anthropic公开定价粗算,这些烧掉的算力成本接近200万美元。

4月初,The Information记者Jyoti Mann在X上首次曝光Meta内部「Claudeonomics」排行榜,30天全公司token总消耗超60万亿。

打开网易新闻 查看精彩图片

这些疯狂的数字,来自Meta内部一个名叫「Claudeonomics」排行榜的比赛,8.5万人参与的烧token大赛,只展示前250名。

从铜牌、银牌、金牌、铂金、翡翠,一路升到「永恒会话」(Session Immortal),再到最高荣誉「Token传奇」(Token Legend)。

没错,烧token都烧出段位来了。

这笔账到底有多大?The Information专门做了一个计算器来拆解:

打开网易新闻 查看精彩图片

The Information报道中附带的交互式token成本估算器,按Claude Opus 4.6占86%的模型配比、70%缓存命中率估算,1万亿token理论成本约550万美元。

当然,这只是按公开价的估算,但数据量级本身已经足够炸裂。

如果放到整个Meta来看,这个数字更恐怖:最近一个月token总消耗约60.2万亿

这是什么概念?

The Information做了一个估算:美国国会图书馆全部藏书折算约2.66万亿token,Meta的Llama 3训练数据是15万亿token,人类历史上所有出版书籍加起来估算约20万亿token。

Meta员工30天烧掉的token量,是人类全部出版物的3倍!

这还只是开始。一周之后,这个数字据报道跳到了73.7万亿。

消息传开后,业内知名技术博主Gergely Orosz在X上一针见血地评论:

Token用量已经是Meta绩效评估的一部分。聪明人在刷他们认为领导想看的指标,就这么简单。

打开网易新闻 查看精彩图片

这已经不是某个工程师在用AI写代码的故事了,而演变成一场超大规模AI消耗竞赛游戏:

覆盖数万人,有排名、有称号、有荣誉体系。

曝光后两天

排行榜就消失了

The Information的报道发出后,Meta内部炸开了锅。

有员工在内部讨论区写道:

我建议大家算算这背后的能源消耗。要不是真的在发生,我会以为是个笑话。

到了周三,排行榜从Meta内网消失了。

Meta发言人对外的说法是:排行榜是由创建者自行撤下的,不是公司下令。

公司强调,员工评估看的是「实际交付影响」,不主张把个人token数据作为评估绩效的主要方式。

但Meta发出的信号是矛盾的。

据The Information报道,Meta内部一个名为Checkpoint的AI驱动绩效追踪系统,确实将token使用量列为数据点之一。

排行榜虽然撤了,但公司官方的AI Insights仪表盘仍然对所有员工开放,你随时可以查看自己和团队的token消耗。

Meta发言人表示,AI Insights仪表盘的目的是帮助公司了解各组织如何向AI原生的工作方式转型,它提供的洞察不只是token用量,还包括代码相关指标和其他维度。

虽然,Meta停掉了排行榜,嘴上说不以token论英雄,但排行榜的逻辑仍然存在,这让不少员工感受到公司释放出的信号并不完全一致。

「代码行数」

披上token新衣

这个排行榜虽然只存在了几天,但它已经催生出了一套「刷分」操作。

打开网易新闻 查看精彩图片

据The Information援引匿名员工描述,一些Meta工程师想出了各种办法来膨胀自己的AI使用指标。

比如,一些工程师会让AI Agent 生成大量细小改动,这些改动对功能帮助有限,但每次仍会形成一次commit,从而抬高其AI使用指标。

量上去了,排名自然好看。

还有人开发了转录机器人,挂在会议里自动做记录。

有的人甚至专门鼓励同事来用自己开发的转录工具,因为只要别人通过你的工具跑token,消耗量就算在你头上。

类似的事不只发生在Meta。

亚马逊电商部门去年也出现过一个案例。

一位经理暗示团队应该更多使用AI编程工具Cline。于是团队里有人直接改了代码,让每次和Cline的对话看起来消耗了10倍的token。

这个团队的AI使用排名迅速冲到了分部前列。

不过到今年年初,亚马逊调整了系统,这个「作弊码」失效了。

这些故事看起来有些荒诞,但熟悉软件行业历史的人一定不陌生。

Box CEO Aaron Levie直言:这让他想起了AI出现之前,行业里围绕「用代码行数衡量程序员产出」的那些老争论。

代码行数也曾经被当作生产力指标。

结果工程师们学会了把一行能写完的逻辑拆成十行:指标涨了,产出没变,甚至更差了。

现在,同样的故事只是换了个计量单位:代码行数变成了token数。刷行数变成了刷commit、挂转录机器人、改系统让数字翻10倍。

指标可量化,又和绩效沾边,就一定可能会「玩坏」。

据The Information报道,有Meta员工私下承认,那些token用量低的人,有时候会焦虑自己看起来「不够AI native」。

同时这位员工也认为,高token用量不应该成为一种身份符号,因为它并不是生产力的好指标。

不卷token的公司

怎么玩?

既然刷token排名的逻辑漏洞这么明显,有没有企业选择另外一条路?

执法装备的公司Axon选择了把AI激励绑定在业务交付上,而不是消耗量上。

他们的做法是团队如果利用AI工具超额完成年度路线图目标15%以上,就能拿到现金奖金。

Axon总裁Josh Isner透露,今年公司各团队集体的路线图超额幅度正在追踪到30%左右,主要归功于Claude Code和Cursor的使用。

预计今年在AI编程工具上的支出将达到「数千万美元」级别。

Isner认为,当你引入「尽量多用这个工具我们就付钱」这种考核的时候,风险越来越大:

你怎么知道你得到的是你想要的结果,或者说,到底有没有任何结果?

Aaron Levie并不鼓励tokenmaxxing,也不认为它会在硅谷之外的大公司里广泛流行。

不过他也表示,自己理解这种冲动,因为当前阶段需要先让工程师充分试用这些工具。

他选了另一种方式:既然AI能让团队更高效,那就把产品目标定得更高。员工能不能完成这些加码后的目标,直接影响薪酬。

但Levie也没有一刀切地否定token消耗。他认为应该容忍一定程度的token「浪费」,因为那意味着团队在尝试新东西:

硅谷现在正处于这样一个阶段,你得让工程师去试这些工具。

Levie愿意为试错买单,但不愿意把「谁烧得最多」变成一种排名机制。

Axon和Box代表了一种观点:token只是弹药,你用了多少不重要,你使用它做出了什么才重要。

当油表被当成速度表

Meta的排行榜被撤了,但背后催生它的那股力量依然强大:

硅谷高管们集体把「多烧token」等同于「高生产力」的叙事一点也没有减弱。

打开网易新闻 查看精彩图片

英伟达CEO黄仁勋

英伟达CEO黄仁勋就曾在All-In Podcast上说过一句被广泛引用的话:

如果一个年薪50万美元的工程师,连至少25万美元的token都没用掉,他会「高度警惕」。

他甚至设想了一个未来:Token会成为招聘时的标配福利,就像牙科保险和免费午餐一样。工程师面试时会问:「这份工作给我配多少token?」

Meta CTO Andrew Bosworth在今年2月的一次科技会议上提到,如果一个顶级工程师花掉相当于自己年薪的token成本,却能把生产力提升到10倍,这笔钱就好比「白送的钱」,应该继续投,甚至不必设上限。

前OpenAI和特斯拉AI科学家Andrej Karpathy则是再造新词:token消耗量俨然成了AI时代个人能力的新标尺:

你的token吞吐量是多少?你能指挥多少token吞吐量(Token throughput)?

当行业大佬都在说「多烧token就是高生产力」,大家听到的信号只有一个:不烧就是落后,这种FOMO(Fear of Missing Out,错失恐惧)会迅速从「我要不要多用一点AI」变成「我敢不敢不用」。

没有人想成为团队里那个token用量垫底的人,而排行榜只是把这种焦虑变成了一场公开竞赛。

但问题恰恰在这里。

Token消耗量之所以被追捧,是因为它是目前最容易量化的AI使用指标。

你很难衡量一个工程师「用AI之后交付质量提升了多少」,但你可以精确地看到他烧了多少token,就它和「代码行数」一样。

但容易量化,不等于值得量化。

代码行数对应的是写代码的动作,并不代表软件质量;Token消耗量衡量的是API调用次数,不等于工程产出。

这就好比油表能告诉你烧了多少油,但它不代表速度和里程。

而AI Agent时代,只会让这个问题更尖锐。

打开网易新闻 查看精彩图片

NYT近期的报道描述了一种新景象:

工程师同时开十几个窗口,放出几十个Agent并行跑任务,有些Agent系统被设计成24/7不间断运行,在人类睡觉的时候还在持续消耗token。

一个全职Agent一周可以跑掉7亿个token

当token消耗可以脱离人类干预自动增长的时候,拿消耗量来衡量人的生产力,就更加荒谬了。

虽然,Meta的Claudeonomics排行榜已经下线,但它折射出一个人类在技术采用上的「经典悖论」:

当一个工具的使用量可以被精确计量、可以被公开排名、可以和绩效感知挂钩,它就必然从工具变成表演。

代码行数是这样,commit次数是这样,专利申请数、论文引用量、OKR完成率,全都是这样。

每一个曾被当作生产力代理指标的数字,最终都催生出了一套刷分产业。

现在轮到了token。

下一个被异化的指标会是什么?

也许是Agent的并发数量,也许是AI生成代码的合并率,也许是某种我们今天还想象不到的新数字。

只要企业还分不清「鼓励用AI」和「考核AI带来的真实产出」,类似的刷榜游戏就不会停。

参考资料:

https://www.theinformation.com/articles/tokenmaxxing-tide-may-turning?rc=epv9gi

https://www.theinformation.com/articles/meta-employees-vie-ai-token-legend-status?rc=epv9gi