Meta内部"tokenmaxxing"排行榜泄露后紧急下架,LinkedIn联合创始人里德·霍夫曼却公开站台——这套把员工AI使用量排名公示的系统,正在撕裂硅谷。
从"外貌内卷"到"算力内卷"
"Tokenmaxxing"这个词的构成本身就很有意思。"Maxxing"是Z世代黑话,指对某件事的极致优化——"looksmaxxing"(颜值最大化)、"sleepmaxxing"(睡眠优化)。现在,硅谷把这套逻辑搬进了办公室。
AI token(令牌)是模型处理数据的最小单位。你每问ChatGPT一个问题,背后都是成百上千个token在流转。对企业来说,token就是真金白银——OpenAI按token计费,私有部署也要算显卡折旧。
于是,一些公司开始内部统计:谁用的token多,谁就是"AI先锋"。
Meta的玩法更激进。他们做了内部排行榜,把员工AI使用量可视化排名。消息泄露后,舆论炸锅,Meta火速下线系统。但争议没停——这到底是科学管理,还是数字监控?
霍夫曼的辩护:用量是"参与度"的硬指标
在Semafor世界经济峰会上,霍夫曼给出了他的判断:
「你应该让各个职能的人真正参与和实验AI。有一个值得关注的仪表盘——它不代表完美的生产力指标,但……人们实际使用了多少token?」
他补了一个关键限定:要看用量,更要看用法。
「有些使用是随机探索,会失败——这没关系。重要的是形成循环,你需要广泛的人群同时、集体地使用它。」
霍夫曼的逻辑很清晰:AI转型不是少数技术专家的独角戏,而是组织能力的整体升级。token用量是"参与度"的可量化 proxy(代理指标),比传统的"培训签到率"或"项目申报数"更难造假。
但他也承认陷阱——纯看数字会鼓励"刷量",就像纯看代码行数会鼓励复制粘贴。
反对者的核心攻击:用量≠价值
工程师社区的批评集中在一点:token消耗和实际产出没有必然联系。
一个典型场景:A员工用GPT-4写周报,每次输入5000字背景材料,输出800字总结,消耗大量token,但价值有限;B员工用Claude 3.5写了一个自动化脚本,token用得少,却替代了团队20%的重复劳动。
更尖锐的类比是:这像不像按"谁花钱多"来评优秀员工?
但支持者也有反例。风投机构a16z的研究显示,高频使用AI工具的开发者,代码提交频率确实更高——不是因为他们"刷量",而是AI降低了尝试成本,让人更愿意做实验性开发。
关键变量可能是"使用深度"。同样是100万token,有人花在调参优化模型,有人花在生成会议纪要。前者可能催生新产品功能,后者只是替代了行政工作。
Meta的算盘:垂直整合的前奏?
创业者约翰·库根(John Coogan)的解读更有战略味。他认为Meta的tokenmaxxing争议,暴露的是其MSL(Meta Supercomputer for AI,Meta AI超级计算机)的整合野心。
「这让他们与MSL的战略更清晰了。很明显,他们……」
库根的推文没说完,但指向一个趋势:当科技公司自建算力基础设施,token成本就从"外部采购费用"变成"内部转移定价"。这时候,推动员工多用AI,既是在摊薄固定成本,也是在训练组织肌肉。
Meta的Llama系列模型开源,但推理服务未必。如果内部token消耗能形成规模效应,对外输出AI服务就有了成本优势。员工排行榜,可能是这套商业逻辑的副产品。
从"监控叙事"到"能力基建"
霍夫曼的完整建议,其实被媒体的"站队"标题稀释了。他真正强调的是三件事:
第一,广泛参与。不是技术部门,是"all different kinds of functions"——销售、法务、HR都要进来。
第二,容忍失败。"Some of it will be experiments that'll fail — that's fine." 组织要买单试错成本。
第三,同步迭代。"Collectively, and simultaneously"——不是少数人先跑通再推广,是大家一起摸索。
这三点指向一个判断:AI转型不是"采购-部署-验收"的项目制,而是持续浸泡的组织学习。token用量是这个过程中的"心率监测",不是"考试成绩单"。
但执行层面,这个度极难把握。Meta的排行榜泄露后,员工的第一反应是恐慌——这是考核我吗?我的排名会影响晋升吗?当"参与指标"变成"绩效指标",探索行为就会变形。
谁在悄悄实践?
Tokenmaxxing不是Meta独创。据The Information报道,多家硅谷公司已在内部试行类似机制:
· 某云厂商把AI工具使用频率纳入工程师"成长档案",不与绩效挂钩,但影响晋升答辩的叙事素材
· 一家金融科技公司用token消耗识别"AI滞后团队",针对性安排培训
· 某咨询公司将合伙人级别的AI使用量匿名聚类,分析高绩效组的工具组合
共同点是:都避免了个体排名公开,都用"诊断"而非"考核"的定位。
这或许是霍夫曼"仪表盘"论的真正含义——管理层需要可观测性,但观测方式决定了员工的心理安全边界。
一个更深层的问题:AI时代的"工作"怎么定义?
Tokenmaxxing争议的底层,是生产力评估体系的失效。
工业时代看工时,信息时代看产出(代码行数、销售额、项目数),AI时代呢?当机器能生成初稿、草拟代码、整理数据,"人类贡献"的边界变得模糊。
一种可能是:评估重心从"产出"转向"决策"——你选择了什么方向,验证了什么假设,纠正了什么偏差。Token用量只是这个过程中的"数字尾气",能说明你在开车,不能说明你去对了地方。
霍夫曼的"仪表盘"隐喻很准确。开车看仪表盘,但不会只看速度表。转速、油量、导航路线——tokenmaxxing只是其中一格。
给管理者的实操建议
如果你正在考虑团队AI使用量化的可行性,几点参考:
1. 明确目的。是识别培训需求,还是筛选高潜员工?前者可以透明,后者需要谨慎。
2. 分层设计。技术团队可以看深度指标(API调用类型、模型选择策略),业务团队看广度指标(尝试场景数、跨工具组合)。
3. 保护探索。设置"安全token额度"——超出基线的使用不追问用途,只记录是否形成可分享的经验。
4. 延迟反馈。月度或季度回顾,避免实时排名制造的焦虑竞赛。
5. 配对质性数据。用量高但产出低的员工,可能是"提示词工程师"的好苗子,也可能是方向迷失——需要对话判断,不能自动打标。
这场争论还没结束
Meta下架排行榜,不代表放弃追踪。据内部人士透露,相关数据仍在收集,只是从"公开排名"改为"管理者视图"。
霍夫曼的站台,把争议从"要不要量化"推进到"怎么量化"。他的答案很明确:要,但要配套理解"人们在用token做什么"。
这其实是所有管理指标的通用困境。OKR、KPI、NPS……没有完美的 proxy,只有不断校准的 proxy。Tokenmaxxing的问题不是"它不准",而是"人们会误以为它准"。
硅谷的下一轮迭代,可能是"token quality score"(token质量分)——结合输出评价、同事反馈、业务影响的综合指标。但这又带来新的复杂性:谁来定义"质量"?
AI转型的组织挑战,才刚刚开始。
如果你所在团队正在尝试AI使用量化的实践,欢迎分享你的观察——是促进了协作,还是制造了内卷?具体场景中的细节,比任何理论框架都更值得被记录。
热门跟贴