Uber首席技术官Neppalli Naga上个月向The Information透露,他“回到了绘图板前,因为原本预估的预算已经炸了”。这笔钱的用途,是Uber在使用Anthropic的Claude Code时产生的开支。Naga没有说具体数字,但“炸了”这个表达,已经足够让外界感受到事态的严重。有技术负责人发现,当初拍脑袋定下的AI使用预算,实际消耗速度远远超出设想,这件事正在不同规模的公司里反复上演。

Naga的言论很快引发了连锁反应。几周后,Uber首席运营官Andrew Macdonald在Rapid Response采访中作出了回应,Business Insider率先报道了这段对话。Macdonald把那笔Claude支出形容为运营团队的“炸头时刻”,并补充:“大家心里的念头都是,‘天啊,炸头时刻了’。”在他看来,接下来工程组织必须开始讨论“令牌消耗和与之相关的成本,与人头数之间的权衡”,并在两者之间做出取舍。他说得直白:“如果你不能画出一条直线,清晰展现你交付了多少有用的功能和特性给用户,这种取舍就更难站得住脚。”

打开网易新闻 查看精彩图片

这种把AI令牌消耗当作生产力指标、却无法将消耗映射到实际业务成果的倾向,正在衍生出一个新名词——“Tokenmaxxing”。简单来说,就是企业将令牌使用量视为衡量AI能力的标尺,甚至误以为用得越多就越先进。但现实是,这种思维很容易跑偏:一旦抛开具象结果,只看消耗量,预算被迅速吞噬,却看不到系统整体状态,软件也可能因为杂乱代码和代理扩散而变得脆弱。Lanai公司联合创始人兼CEO Lexi Reese对The New Stack直言:“Tokenmaxxing是真实存在的,它代价高昂,而且已经不再局限于个别工程师或公司,正在蔓延开来。”

Reese和团队把问题归结为“上下文缺失”:企业知道钱花在了AI上,但很难说清每一笔令牌消耗对应着哪个工作流、用了哪些模型、效率如何、创造了什么价值。Lanai本身是一家AI问责公司,目标就是让企业看清AI支出的去向,以及AI被应用到了哪些工作流中,并弄清楚背后的成本。为了应对令牌开销失控的窘境,Lanai最近推出了一个名为Token Tuner的服务。这个工具的核心能力是识别哪些场景可以用更低成本的模型来替代,从而减少不必要的令牌支出。它尝试把每一次AI交互都对应到一个可衡量的成果上,帮助企业重建缺失的逻辑链条。

值得注意的是,Token Tuner并非孤例。市场上已经涌现出一批试图帮助团队管控令牌预算的工具,来自Kong、Braintrust、LiteLLM、Dynatrace等公司,花样繁多的“如何减少令牌消耗”的清单也在网络上流传。Uber的故事之所以成为最新高调案例,恰恰是因为它把Tokenmaxxing的后果赤裸裸地暴露了出来:预算超支、团队震动、决策层不得不重新定义什么才是有效的AI投入。当令牌用量不再是一种虚荣指标,而需要和交付给用户的实用功能直接挂钩时,那种“为了用AI而用AI”的狂热就要开始降温了。

Macdonald所说的“难以站住脚”,本质上就是在提醒,如果工程师产出无法量化到具体特性,那么靠消耗令牌换来的代码扩展,终究会面临价值质疑。Reese则补充,令牌消耗的过度膨胀不仅费钱,还可能带来臃肿代码和代理蔓延,最终使软件应用变得脆弱甚至不堪一击。眼下,越来越多的公司和组织正在从“看谁用得多”转向“看谁用得好”,而这种转变,或许正是Tokenmaxxing由热变冷的真正信号。