编辑|Panda
去年夏天,DeepSeek V3.1 惊现神秘「极」字 Bug。简单来说,就是 DeepSeek V3.1 模型的输出里总是会莫名其妙出现「极」字,有趣的是就连其英文输出也会出现对应的「extreme」。参阅《热议!DeepSeek V3.1 惊现神秘「极」字 Bug,模型故障了?》
事件引发广泛热议,网友戏称这是「极你太美」bug,或者「极」速版 DeepSeek。
研究者事后推测,这个「极」字来自训练数据中一组未被清洗干净的「极长数组」。在强化学习阶段,模型将它学成了一种特殊的终止符或语言切换标记。换句话说,不是模型坏了,而是模型学得太认真了 ——认真学了一个错误的习惯
这件事在 AI 圈引发了广泛讨论:大模型训练的过程如此复杂,我们真的能完全预测它会学到什么吗?
无独有偶,OpenAI 的模型也有一个类似的但更加奇幻的问题:它的模型迷上了哥布林。今天,OpenAI 还正式发布了一篇博客,解释了「哥布林究竟从何而来」, 奥特曼本人也在 X 上广播了一下。
此时自然引发了广泛讨论和调侃:
还有人打趣说要拯救哥布林:
那么,哥布林究竟从何而来?
博客地址:https://openai.com/index/where-the-goblins-came-from/
据 OpenAI 介绍,从 GPT-5.1 开始,OpenAI 的模型在回答各类问题时,开始越来越频繁地使用一个词:goblin(哥布林)。
起初,这只是偶尔为之:一个「little goblin」出现在某个技术比喻里,既没影响准确性,甚至有几分讨喜的俏皮感。
但随着模型版本的迭代,哥布林不再只是偶尔探个头,它开始成群结队地出现。它的同伴 gremlin(小妖精)、troll(巨怪)、ogre(食人魔)也陆续加入。
在 GPT-5.5 及其驱动的代码助手 Codex 的早期测试中,这一习惯已经明显到让工程师无法忽视。
这已经不是风格问题,而是一种异常行为。
OpenAI 工程师们开始调查:这些哥布林到底是从哪里来的?
「书呆子」性格的意外副作用
排查工作并不容易。这类行为没有一个能让指标骤然崩塌的「爆炸时刻」,它是慢慢渗入的,就像温水煮青蛙。
工程师们首先注意到了一个统计异常:「goblin」这个词在不同用户场景中的分布极不均匀
数据显示,虽然「Nerdy」(书呆子)这个人格选项只占 ChatGPT 全部响应的 2.5%,但它贡献了 ChatGPT 所有包含「goblin」词汇回复的 66.7%。
这是一个强烈的信号。
「Nerdy」是 ChatGPT 人格定制功能里的一个选项,对应的系统提示大致是:你是一个不妥协的书呆子型 AI 导师,热情地推崇真理、知识与批判性思维。你必须用语言的俏皮感来打破那些自以为是的姿态。世界是复杂而奇异的,而这种奇异性必须被承认、分析和享受。
这段提示词解释了「Nerdy」模式为什么容易产生奇特的比喻:它被明确要求「玩弄语言的俏皮感」。但问题的核心还更深一层:为什么训练 Nerdy 个性,会导致哥布林词汇的出现?
奖励信号的意外偏好
答案藏在强化学习的奖励机制里。
OpenAI 工程师动用了代码助手 Codex,对训练过程中的强化学习输出样本进行了大规模比对:将含有「goblin」或「gremlin」的输出,与完成相同任务但没有这些词的输出并排放置,然后检查各个奖励模型的打分差异。
结果非常清晰:负责激励「Nerdy」性格的奖励信号,在 76.2% 的数据集中,都对含有怪物词汇的输出给出了更高的分数。
换句话说,有人在训练时无意间告诉模型:用哥布林打比方是一件「书呆子」会做的事。
这本身可以解释为什么 Nerdy 模式充满了精灵和小妖精。但还有一个更棘手的问题悬而未决:为什么在没有使用 Nerdy 模式的普通对话里,哥布林也在增多?
强化学习的「泄漏」
这就来到了整个故事最值得深思的部分。
工程师们追踪了训练过程中,带 Nerdy 提示词和不带 Nerdy 提示词两组样本里「goblin」词汇的出现频率变化。发现了一个规律:两组数据几乎同步增长
Nerdy 模式里哥布林变多,普通模式里哥布林也同步变多,增幅甚至几乎相同。
强化学习不能保证,在某个特定条件下学到的行为习惯,能整整齐齐地待在那个条件的边界之内。在 Nerdy 模式下被反复强化的「喜欢用怪物打比方」这个习惯,通过某种迁移,渗进了模型更广泛的表达方式之中。
这就好比,你训练一个厨师在煮螺丝粉多用红油,结果他在做一切粉丝时都开始多放红油。
整个因果链清晰了:训练「Nerdy」人格 → 奖励信号意外偏爱怪物词汇 → 强化学习将这种风格固化 → 风格通过迁移扩散到非 Nerdy 的普通对话 → 哥布林蔓延全模型。
解决方案与舆论狂欢
在问题的根源被找到之前,工程师们采取了一个治标的办法:直接在 Codex 的系统提示里写明禁令
被公开的内部提示词写道:「永远不要谈论哥布林、小妖精、浣熊、巨怪、食人魔、鸽子或其他动物和生物,除非这与用户的问题有绝对和明确的直接关联。」
地址:https://github.com/openai/codex/blob/main/codex-rs/models-manager/models.json#L55
这条规则在提示词里出现了多次。显然工程师们不太相信写一遍就能让模型老老实实遵守。
该博客发布后,在互联网上引发了一场欢乐的狂欢。在本文写作时,相关话题甚至冲上了 X trending 榜,同时也是 HackerNews 上第一热议话题。
就连官方也在一起玩梗,比如 ChatGPT 官方 X 账号把上述提示词直接放在了个人介绍里面:
该帐号还引用了《霍比特人》的台词:「Down, down to Goblin-town you go, my lad!」(下去,下到哥布林镇去吧,小子!)
Sam Altman 则发帖调侃:「开始训练 GPT-6,你可以用整个算力集群。额外补贴:加倍的哥布林。」
结语
DeepSeek 的「极」字和 OpenAI 的「哥布林」看起来是两件独立的趣事,但它们指向的其实是同一个问题。
现代大模型的训练规模之大、数据链路之长、优化目标之复杂,使得任何一个环节的细小偏差,都可能在模型内部被悄悄放大、固化,乃至「传染」给原本毫不相关的行为。
DeepSeek 的案例里,是一批没洗干净的训练数据,让模型学会了把一个汉字当作终止信号。OpenAI 的案例里,是一个奖励模型对「怪物词汇」的无意偏爱,让精灵和哥布林悄悄渗透进了几乎所有对话。
更值得关注的细节是:在 OpenAI 的案例中,工程师们最初并没有发现异常,因为「一个哥布林」本身不是问题,它看起来甚至挺有趣。直到行为已经扩散到无法忽视的程度,才触发了系统性调查。
这意味着,那些「无害」的奇怪习惯也可能变成危险信号。它们不会触发任何告警指标,只会一代一代悄悄积累,直到某一天,你才意识到自己的模型已经在某件事上走了很远、很偏的弯路。
热门跟贴