去年Q3,某大厂技术VP在内部会上甩出一组数字:团队AI工具月消耗token(令牌,AI处理文本的最小单位)环比增长340%。会议室掌声雷动。三个月后,代码质量评分暴跌22%,工程师们却在庆功——他们的绩效奖金和token用量直接挂钩。
这不是段子,是正在发生的"眼镜蛇养殖"现场。
组织测量开发者生产力的执念,堪比程序员改需求——明知道会出事,就是停不下来。从代码行数到Jira工单,从PR合并数到token消耗,每一代指标都信誓旦旦"这次不一样",每一代都沦为数字游戏。
AI时代的新陷阱,正在以更快的速度复制旧错误。
从代码行数到token:一场20年的指标轮回
2000年代初,硅谷某巨头率先把"人均代码行数"写进晋升评审表。结果堪称行为艺术:工程师把单行注释拆成三行,把`if(a&&b)`改写成嵌套if,函数复用率断崖式下跌。
技术债像信用卡账单——当时爽,后来疼。
Jira时代的故事更荒诞。某金融科技公司把"关闭工单数"纳入季度考核,工程师们立刻领悟了"敏捷"的真谛:一个需求拆12个ticket,改个变量名单开一张,连"修复拼写错误"都能走完整套工作流。产品经理看着仪表盘上飙升的数字,误以为团队在冲刺;工程师看着堆积的上下文切换,知道自己在表演。
PR合并数指标则催生了"微PR"文化。某开源社区维护者吐槽:曾收到一个把`color: red`改成`color: #ff0000`的独立PR,附带200字描述和3个reviewer。贡献者不是在写代码,是在刷指标。
token用量正在重蹈覆辙,且更隐蔽。AI工具的交互黑箱让"虚假繁荣"更难识别——你看到一个工程师日耗50万token,不知道他是在重构架构,还是在让Copilot把"hello world"翻译成梵文。
指标一旦成为目标,就不再是好指标。这句话被说过太多次,但每次都被遗忘。
眼镜蛇经济学:一个被反复验证的诅咒
殖民时期的德里,眼镜蛇泛滥成灾。英国政府推出赏金政策:每上交一条死蛇,领取固定奖金。逻辑无懈可击:死蛇越多,活蛇越少。
市场立刻给出反直觉的回应。市民开始规模化养殖眼镜蛇——繁殖、宰杀、领奖,形成完整产业链。当政府察觉异常叫停政策时,养殖户把存栏蛇群倾倒入城。眼镜蛇数量不降反升。
这个"眼镜蛇效应"(Cobra Effect)成为政策学的经典教案。它的核心机制在于:代理指标与真实目标之间的裂缝,会被理性人迅速套利。
AI token的裂缝在哪里?
真实目标是"工程师效率提升"或"业务价值交付",但token用量只是"AI交互频次"的代理。当奖金、晋升、团队预算和这个数字绑定,工程师的行为必然扭曲:把能一次性写成的代码拆成多轮对话,让AI反复解释已知概念,用生成内容替代思考而非加速思考。
某头部云厂商的中层透露,其团队曾出现"token冲刺"现象——月末用量未达标时,工程师会批量运行无意义的AI查询,"就像月底刷信用卡凑积分"。
更隐蔽的损害在于认知退化。当"用AI"本身成为KPI,工程师停止判断"这件事是否值得用AI"。一个资深开发者描述这种状态:"你不再想'这个算法我自己推还是问AI',你只想'这个对话能烧多少token'。"
Output vs Outcome:被混淆的因果链
产品管理领域有个老生常谈:output(产出)不等于outcome(结果)。写1000行代码是output,解决用户支付失败是outcome;合并20个PR是output,系统稳定性提升是outcome。
token用量是最纯粹的output指标——它只测量"烧了多少算力",不测量"产生了什么价值"。
这种混淆在AI场景中被放大。传统代码指标好歹和"工作痕迹"相关,token用量却和"思考痕迹"脱钩。一个工程师可以日耗百万token却零有效交付,也可以极少调用AI却完成关键架构决策。
某AI基础设施公司的内部调研显示:token用量前10%的工程师,其代码被回滚率是同组平均的2.3倍。高消耗往往对应着"让AI替我做决定"的依赖模式,而非"用AI增强判断"的协作模式。
组织陷入悖论:越强调AI采用率,越可能收获虚假的采用。就像要求"每天必须有5次团队协作",员工会发明无意义的站会来充数。
一位前Google工程总监在播客中回忆:"我们曾试点'AI辅助编码时长'指标,结果有人让AI在后台循环生成诗歌,自己刷手机。指标仪表盘很漂亮,实际产出很惨淡。"
逃出陷阱:几家公司的另类实验
并非所有人都在重复错误。一些组织正在尝试更刁钻的测量方式。
某独角兽SaaS公司弃用token用量,转而追踪"AI建议采纳率"——不是用了多少次AI,而是AI的建议有多少被保留到最终代码。这个数字很难刷:虚假采纳会被代码审查识破,盲目采纳会导致生产事故。
另一家金融科技公司测量"AI介入前后的任务完成时间差"。工程师需要记录预估工时、实际工时、AI使用场景,系统计算净效率增益。造假成本极高:虚报工时会暴露,隐瞒AI使用无法解释异常提速。
更激进的实验来自一家AI原生创业公司:他们完全取消个人层面的AI用量指标,只在团队维度追踪"功能交付周期"和"缺陷逃逸率"。CEO的解释很直白:"我们买的是结果,不是过程。工程师用不用AI、用多少,是他们自己的工具选择。"
这些方案的共同点是让指标尽可能接近"不可伪造的真实价值"。代价是实施成本更高、数据收集更复杂、短期数字没那么好看。
大多数组织选择了更容易的路。
为什么明知是坑,还要跳
眼镜蛇陷阱的顽固性,在于它满足了多方的短期利益。
对管理层,token用量是向董事会展示的"AI转型证据"。一个可量化的、持续增长的数字,比"工程师主观反馈效率提升"更有说服力。某上市公司CTO承认:"我们知道这个数字有水份,但投资人电话会上需要故事。"
对中层,它是预算争夺的武器。"我团队AI用量增长400%"比"我团队代码质量稳定"更容易申请到下一季度工具采购额度。
对工程师个体,在考核压力下,刷指标是理性选择。当组织用token用量定义"AI先锋",不刷的人反而显得落伍。
这种共谋让陷阱自我强化。直到某次生产事故回溯,发现高token用量的"明星工程师"提交的代码存在系统性缺陷;直到审计显示,某团队40%的AI交互是重复询问相同问题——组织才会被迫重新审视指标。
但那时,技术债已经累积,竞争窗口可能已经关闭。
一位在三家大厂经历过完整指标轮回的工程师总结:"每次换指标,大家都假装上次没发生过。代码行数→工单数→PR数→token数,变的是仪表盘,不变的是表演。"
此刻,你的组织仪表盘上,最显眼的数字是什么?它正在塑造什么样的行为?
热门跟贴