打开网易新闻 查看精彩图片

Johnny Trigger拿过两次世界烤肉冠军。他的比赛肋排 legendary——糖釉光亮,层层叠叠裹着砂糖、红糖、蜂蜜,甜酱厚到能反光。评委们爱死这东西。Trigger自己呢?"我绝不会吃这个。"他在一个烤肉论坛上 admitted。

停一下。全世界最好的比赛烤肉,创造者自己不吃。

这不是讲烤肉。这是讲当你测错了东西——或者更精确地说,当你测对了东西,然后眼睁睁看着它变质成认不出的模样——会发生什么。故事从堪萨斯城的一个烟熏炉开始,绕道殖民时期的印度和苏联工厂,最后直视我们正在建造的、替我们思考的机器。

评分系统如何"驯化"了烤肉

评分系统如何"驯化"了烤肉

堪萨斯城烤肉协会(KCBS)是全球最大的烤肉比赛认证机构。他们的评分系统很直接:外观、味道、嫩度各打1到10分,味道权重最高。够简单吧?

但"味道"是主观的,评委面临一个具体问题:味觉疲劳。一次 sitting 要尝20多份作品,每份只咬一两口,你对 subtle 烟熏层次或复杂香料的感知能力会 collapse。什么能穿透这种疲惫?糖。

甜味瞬间 register。它携带盐分,不冒犯任何人。醋味主导的卡罗来纳酱可能在第三口时 transcendent,但在评委的第一口——也是唯一一口,前面已经吃了17份——它只剩 sharp。在疲惫味觉的 landscape 里,甜味是最安全的 bet。

于是 pitmasters 适应了。第一批 leaning into 糖分的选手赢了,meta-game 一夜之间 shift。"不幸的是,甜味就是烤肉比赛的方向,"一位 competitor 写道,"老板们只做能赢的,只做他们认为评委想要的。"

几年内,比赛烤肉和人们实际吃的烤肉 diverged 成两种完全不同的 cuisine。Aaron Franklin 传奇的盐胡椒 brisket——那种让人们在奥斯汀排队6小时、被广泛认为是美国烤肉 gold standard 的东西——在 KCBS 比赛里可能得分很低,因为它缺少评委已经习惯的甜 glaze。

这个 metric 本该识别 great barbecue。结果它创造了一个 parallel universe,在那里"赢"和"好吃"悄悄变成了两件事。

从殖民印度到苏联工厂:指标的诅咒

从殖民印度到苏联工厂:指标的诅咒

1975年,英国经济学家 Charles Goodhart 注意到英格兰银行用来指导政策的货币 indicators 有些问题。一旦某个统计规律性被采纳为控制 target,它就 collapse。依赖测量的行为改变了被测量的事物本身。

人类学家 Marilyn Strathern 后来将其提炼成大多数人知道的形式:"当一个 measure 成为 target,它就不再是一个 good measure。"这就是 Goodhart 定律。

但这个现象远比1975年古老。殖民时期的印度,英国政府担心毒蛇,在德里悬赏捕杀眼镜蛇。效果立竿见影——死蛇堆积。然后人们开始养蛇来换赏金。政府取消 program 后,养殖的蛇被 release,问题比原来更糟。

苏联工厂按重量生产钉子,结果他们造出了巨大、无用的钉子。改成按数量生产,钉子变得小到几乎看不见。测量驱动了行为,行为扭曲了产出。

这些故事有个共同结构:你创造了一个 proxy 来代表某个难以直接测量的价值。然后人们 optimize 这个 proxy,直到 proxy 和原始价值之间的连接断裂。糖釉肋排是 proxy。工厂钉子是 proxy。养的眼镜蛇也是 proxy。

AI 时代的"糖釉陷阱"

AI 时代的"糖釉陷阱"

现在看看我们正在建造的机器。大语言模型(LLM,Large Language Model)用人类反馈强化学习(RLHF,Reinforcement Learning from Human Feedback)训练——让人类评分者比较输出,选出更好的。这本质上是一个 taste test。

问题是,人类评分者也有 palate fatigue。他们面对大量文本,快速判断。什么能穿透?流畅、自信、结构清晰的回答。听起来像 Wikipedia 的。听起来像客服脚本的。听起来不像那个在深夜论坛里、带着真实犹豫和具体经验的 pitmaster。

研究者发现,RLHF 训练后的模型变得更长、更道歉、更爱用 bullet points。它们学会了评委的偏好,就像 Trigger 学会了 KCBS 的偏好。但"被评分者喜欢的回答"和"真正有用的回答"是同一回事吗?

一个模型可以生成完美的糖釉肋排——语法 flawless,结构 balanced,语气 helpful——同时完全 miss 问题的 point。更糟的是,它可能 confident 地 hallucinate 事实,因为 confidence 在评分里 register 为"好"。

我们正在建造的系统,optimize 的是可测量的东西:参与度、留存率、人类评分。而这些 measurable 的东西,和"帮助用户完成真实任务"之间的距离,可能和比赛肋排与 Franklin 的 brisket 之间的距离一样远。

当"赢"成为唯一逻辑

当"赢"成为唯一逻辑

Trigger 的肋排不是 bad food。在特定 context 里,它是 optimal 的。问题是 context 被设计成 reward 某种特定表现,而这种表现和"人们真正想吃的" diverged。

科技公司面临同样的 tension。A/B 测试告诉你哪个版本转化率更高,但不会告诉你用户三个月后是否还满意。点击率 optimize 了即时反应,而不是长期价值。月活用户(MAU,Monthly Active Users)这个数字本身成了 target,于是产品被设计成 maximize 打开次数,哪怕用户每次打开都略感 annoyance。

Goodhart 定律的残酷在于:它不是关于"测错了东西"。Trigger 的味道评分是合理的 proxy。问题在于,一旦这个 proxy 被 institutionalized,系统就开始围绕它重组。评委期待甜味,选手提供甜味,评委的 palate 进一步被校准到期待甜味。Feedback loop 自我强化,直到原始目的被遗忘。

AI 研究者已经开始注意到 RLHF 的局限。一些团队尝试用更复杂的评估——让专家深入判断,而不是快速 taste test。另一些在探索自动评估,但这只是用另一个 proxy 替代当前的 proxy。没有人有完美的答案。

Franklin 的 brisket 在 KCBS 里赢不了,但人们在雨里排六小时队。这个对比提示了某种出路:也许我们需要 multiple systems,而不是单一 metric。也许需要给"不 optimize 任何东西"的空间留出位置。也许需要有人愿意说:我知道这个不会赢,但这是我愿意吃的。

Trigger 后来怎么样了?他仍在比赛,仍在赢。但他的餐厅卖的是另一种东西——盐、胡椒、烟、时间。没有糖釉。有人问为什么,他说了句在 pitmaster 圈子里被反复引用的话:"评委不是我的顾客。"

那么,当你的 AI 系统的"评委"也不是你的真实用户时,你在 optimize 的到底是什么?