硅谷新指标：用"算力消耗"衡量员工价值？

赛博兰博

2026-04-15 21:19 ·北京

Meta内部"tokenmaxxing"排行榜泄露后紧急下架，LinkedIn联合创始人里德·霍夫曼却公开站台——这套把员工AI使用量排名公示的系统，正在撕裂硅谷。

从"外貌内卷"到"算力内卷"

"Tokenmaxxing"这个词的构成本身就很有意思。"Maxxing"是Z世代黑话，指对某件事的极致优化——"looksmaxxing"（颜值最大化）、"sleepmaxxing"（睡眠优化）。现在，硅谷把这套逻辑搬进了办公室。

AI token（令牌）是模型处理数据的最小单位。你每问ChatGPT一个问题，背后都是成百上千个token在流转。对企业来说，token就是真金白银——OpenAI按token计费，私有部署也要算显卡折旧。

于是，一些公司开始内部统计：谁用的token多，谁就是"AI先锋"。

Meta的玩法更激进。他们做了内部排行榜，把员工AI使用量可视化排名。消息泄露后，舆论炸锅，Meta火速下线系统。但争议没停——这到底是科学管理，还是数字监控？

霍夫曼的辩护：用量是"参与度"的硬指标

在Semafor世界经济峰会上，霍夫曼给出了他的判断：

「你应该让各个职能的人真正参与和实验AI。有一个值得关注的仪表盘——它不代表完美的生产力指标，但……人们实际使用了多少token？」

他补了一个关键限定：要看用量，更要看用法。

「有些使用是随机探索，会失败——这没关系。重要的是形成循环，你需要广泛的人群同时、集体地使用它。」

霍夫曼的逻辑很清晰：AI转型不是少数技术专家的独角戏，而是组织能力的整体升级。token用量是"参与度"的可量化 proxy（代理指标），比传统的"培训签到率"或"项目申报数"更难造假。

但他也承认陷阱——纯看数字会鼓励"刷量"，就像纯看代码行数会鼓励复制粘贴。

反对者的核心攻击：用量≠价值

工程师社区的批评集中在一点：token消耗和实际产出没有必然联系。

一个典型场景：A员工用GPT-4写周报，每次输入5000字背景材料，输出800字总结，消耗大量token，但价值有限；B员工用Claude 3.5写了一个自动化脚本，token用得少，却替代了团队20%的重复劳动。

更尖锐的类比是：这像不像按"谁花钱多"来评优秀员工？

但支持者也有反例。风投机构a16z的研究显示，高频使用AI工具的开发者，代码提交频率确实更高——不是因为他们"刷量"，而是AI降低了尝试成本，让人更愿意做实验性开发。

关键变量可能是"使用深度"。同样是100万token，有人花在调参优化模型，有人花在生成会议纪要。前者可能催生新产品功能，后者只是替代了行政工作。

Meta的算盘：垂直整合的前奏？

创业者约翰·库根（John Coogan）的解读更有战略味。他认为Meta的tokenmaxxing争议，暴露的是其MSL（Meta Supercomputer for AI，Meta AI超级计算机）的整合野心。

「这让他们与MSL的战略更清晰了。很明显，他们……」

库根的推文没说完，但指向一个趋势：当科技公司自建算力基础设施，token成本就从"外部采购费用"变成"内部转移定价"。这时候，推动员工多用AI，既是在摊薄固定成本，也是在训练组织肌肉。

Meta的Llama系列模型开源，但推理服务未必。如果内部token消耗能形成规模效应，对外输出AI服务就有了成本优势。员工排行榜，可能是这套商业逻辑的副产品。

从"监控叙事"到"能力基建"

霍夫曼的完整建议，其实被媒体的"站队"标题稀释了。他真正强调的是三件事：

第一，广泛参与。不是技术部门，是"all different kinds of functions"——销售、法务、HR都要进来。

第二，容忍失败。"Some of it will be experiments that'll fail — that's fine." 组织要买单试错成本。

第三，同步迭代。"Collectively, and simultaneously"——不是少数人先跑通再推广，是大家一起摸索。

这三点指向一个判断：AI转型不是"采购-部署-验收"的项目制，而是持续浸泡的组织学习。token用量是这个过程中的"心率监测"，不是"考试成绩单"。

但执行层面，这个度极难把握。Meta的排行榜泄露后，员工的第一反应是恐慌——这是考核我吗？我的排名会影响晋升吗？当"参与指标"变成"绩效指标"，探索行为就会变形。

谁在悄悄实践？

Tokenmaxxing不是Meta独创。据The Information报道，多家硅谷公司已在内部试行类似机制：

· 某云厂商把AI工具使用频率纳入工程师"成长档案"，不与绩效挂钩，但影响晋升答辩的叙事素材

· 一家金融科技公司用token消耗识别"AI滞后团队"，针对性安排培训

· 某咨询公司将合伙人级别的AI使用量匿名聚类，分析高绩效组的工具组合

共同点是：都避免了个体排名公开，都用"诊断"而非"考核"的定位。

这或许是霍夫曼"仪表盘"论的真正含义——管理层需要可观测性，但观测方式决定了员工的心理安全边界。

一个更深层的问题：AI时代的"工作"怎么定义？

Tokenmaxxing争议的底层，是生产力评估体系的失效。

工业时代看工时，信息时代看产出（代码行数、销售额、项目数），AI时代呢？当机器能生成初稿、草拟代码、整理数据，"人类贡献"的边界变得模糊。

一种可能是：评估重心从"产出"转向"决策"——你选择了什么方向，验证了什么假设，纠正了什么偏差。Token用量只是这个过程中的"数字尾气"，能说明你在开车，不能说明你去对了地方。

霍夫曼的"仪表盘"隐喻很准确。开车看仪表盘，但不会只看速度表。转速、油量、导航路线——tokenmaxxing只是其中一格。

给管理者的实操建议

如果你正在考虑团队AI使用量化的可行性，几点参考：

1. 明确目的。是识别培训需求，还是筛选高潜员工？前者可以透明，后者需要谨慎。

2. 分层设计。技术团队可以看深度指标（API调用类型、模型选择策略），业务团队看广度指标（尝试场景数、跨工具组合）。

3. 保护探索。设置"安全token额度"——超出基线的使用不追问用途，只记录是否形成可分享的经验。

4. 延迟反馈。月度或季度回顾，避免实时排名制造的焦虑竞赛。

5. 配对质性数据。用量高但产出低的员工，可能是"提示词工程师"的好苗子，也可能是方向迷失——需要对话判断，不能自动打标。

这场争论还没结束

Meta下架排行榜，不代表放弃追踪。据内部人士透露，相关数据仍在收集，只是从"公开排名"改为"管理者视图"。

霍夫曼的站台，把争议从"要不要量化"推进到"怎么量化"。他的答案很明确：要，但要配套理解"人们在用token做什么"。

这其实是所有管理指标的通用困境。OKR、KPI、NPS……没有完美的 proxy，只有不断校准的 proxy。Tokenmaxxing的问题不是"它不准"，而是"人们会误以为它准"。

硅谷的下一轮迭代，可能是"token quality score"（token质量分）——结合输出评价、同事反馈、业务影响的综合指标。但这又带来新的复杂性：谁来定义"质量"？

AI转型的组织挑战，才刚刚开始。

如果你所在团队正在尝试AI使用量化的实践，欢迎分享你的观察——是促进了协作，还是制造了内卷？具体场景中的细节，比任何理论框架都更值得被记录。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴