GPT-5系列咋都爱说「哥布林」？原因找到了

机器之心Pro

2026-04-30 19:51 ·河北 ·《机器之心》官方网易号

编辑｜Panda

去年夏天，DeepSeek V3.1 惊现神秘「极」字 Bug。简单来说，就是 DeepSeek V3.1 模型的输出里总是会莫名其妙出现「极」字，有趣的是就连其英文输出也会出现对应的「extreme」。参阅《热议！DeepSeek V3.1 惊现神秘「极」字 Bug，模型故障了？》

事件引发广泛热议，网友戏称这是「极你太美」bug，或者「极」速版 DeepSeek。

研究者事后推测，这个「极」字来自训练数据中一组未被清洗干净的「极长数组」。在强化学习阶段，模型将它学成了一种特殊的终止符或语言切换标记。换句话说，不是模型坏了，而是模型学得太认真了 ——认真学了一个错误的习惯

这件事在 AI 圈引发了广泛讨论：大模型训练的过程如此复杂，我们真的能完全预测它会学到什么吗？

无独有偶，OpenAI 的模型也有一个类似的但更加奇幻的问题：它的模型迷上了哥布林。今天，OpenAI 还正式发布了一篇博客，解释了「哥布林究竟从何而来」, 奥特曼本人也在 X 上广播了一下。

此时自然引发了广泛讨论和调侃：

还有人打趣说要拯救哥布林：

那么，哥布林究竟从何而来？

博客地址：https://openai.com/index/where-the-goblins-came-from/

据 OpenAI 介绍，从 GPT-5.1 开始，OpenAI 的模型在回答各类问题时，开始越来越频繁地使用一个词：goblin（哥布林）。

起初，这只是偶尔为之：一个「little goblin」出现在某个技术比喻里，既没影响准确性，甚至有几分讨喜的俏皮感。

但随着模型版本的迭代，哥布林不再只是偶尔探个头，它开始成群结队地出现。它的同伴 gremlin（小妖精）、troll（巨怪）、ogre（食人魔）也陆续加入。

在 GPT-5.5 及其驱动的代码助手 Codex 的早期测试中，这一习惯已经明显到让工程师无法忽视。

这已经不是风格问题，而是一种异常行为。

OpenAI 工程师们开始调查：这些哥布林到底是从哪里来的？

「书呆子」性格的意外副作用

排查工作并不容易。这类行为没有一个能让指标骤然崩塌的「爆炸时刻」，它是慢慢渗入的，就像温水煮青蛙。

工程师们首先注意到了一个统计异常：「goblin」这个词在不同用户场景中的分布极不均匀

数据显示，虽然「Nerdy」（书呆子）这个人格选项只占 ChatGPT 全部响应的 2.5%，但它贡献了 ChatGPT 所有包含「goblin」词汇回复的 66.7%。

这是一个强烈的信号。

「Nerdy」是 ChatGPT 人格定制功能里的一个选项，对应的系统提示大致是：你是一个不妥协的书呆子型 AI 导师，热情地推崇真理、知识与批判性思维。你必须用语言的俏皮感来打破那些自以为是的姿态。世界是复杂而奇异的，而这种奇异性必须被承认、分析和享受。

这段提示词解释了「Nerdy」模式为什么容易产生奇特的比喻：它被明确要求「玩弄语言的俏皮感」。但问题的核心还更深一层：为什么训练 Nerdy 个性，会导致哥布林词汇的出现？

奖励信号的意外偏好

答案藏在强化学习的奖励机制里。

OpenAI 工程师动用了代码助手 Codex，对训练过程中的强化学习输出样本进行了大规模比对：将含有「goblin」或「gremlin」的输出，与完成相同任务但没有这些词的输出并排放置，然后检查各个奖励模型的打分差异。

结果非常清晰：负责激励「Nerdy」性格的奖励信号，在 76.2% 的数据集中，都对含有怪物词汇的输出给出了更高的分数。

换句话说，有人在训练时无意间告诉模型：用哥布林打比方是一件「书呆子」会做的事。

这本身可以解释为什么 Nerdy 模式充满了精灵和小妖精。但还有一个更棘手的问题悬而未决：为什么在没有使用 Nerdy 模式的普通对话里，哥布林也在增多？

强化学习的「泄漏」

这就来到了整个故事最值得深思的部分。

工程师们追踪了训练过程中，带 Nerdy 提示词和不带 Nerdy 提示词两组样本里「goblin」词汇的出现频率变化。发现了一个规律：两组数据几乎同步增长

Nerdy 模式里哥布林变多，普通模式里哥布林也同步变多，增幅甚至几乎相同。

强化学习不能保证，在某个特定条件下学到的行为习惯，能整整齐齐地待在那个条件的边界之内。在 Nerdy 模式下被反复强化的「喜欢用怪物打比方」这个习惯，通过某种迁移，渗进了模型更广泛的表达方式之中。

这就好比，你训练一个厨师在煮螺丝粉多用红油，结果他在做一切粉丝时都开始多放红油。

整个因果链清晰了：训练「Nerdy」人格 → 奖励信号意外偏爱怪物词汇 → 强化学习将这种风格固化 → 风格通过迁移扩散到非 Nerdy 的普通对话 → 哥布林蔓延全模型。

解决方案与舆论狂欢

在问题的根源被找到之前，工程师们采取了一个治标的办法：直接在 Codex 的系统提示里写明禁令

被公开的内部提示词写道：「永远不要谈论哥布林、小妖精、浣熊、巨怪、食人魔、鸽子或其他动物和生物，除非这与用户的问题有绝对和明确的直接关联。」

地址：https://github.com/openai/codex/blob/main/codex-rs/models-manager/models.json#L55

这条规则在提示词里出现了多次。显然工程师们不太相信写一遍就能让模型老老实实遵守。

该博客发布后，在互联网上引发了一场欢乐的狂欢。在本文写作时，相关话题甚至冲上了 X trending 榜，同时也是 HackerNews 上第一热议话题。

就连官方也在一起玩梗，比如 ChatGPT 官方 X 账号把上述提示词直接放在了个人介绍里面：

该帐号还引用了《霍比特人》的台词：「Down, down to Goblin-town you go, my lad!」（下去，下到哥布林镇去吧，小子！）

Sam Altman 则发帖调侃：「开始训练 GPT-6，你可以用整个算力集群。额外补贴：加倍的哥布林。」

结语

DeepSeek 的「极」字和 OpenAI 的「哥布林」看起来是两件独立的趣事，但它们指向的其实是同一个问题。

现代大模型的训练规模之大、数据链路之长、优化目标之复杂，使得任何一个环节的细小偏差，都可能在模型内部被悄悄放大、固化，乃至「传染」给原本毫不相关的行为。

DeepSeek 的案例里，是一批没洗干净的训练数据，让模型学会了把一个汉字当作终止信号。OpenAI 的案例里，是一个奖励模型对「怪物词汇」的无意偏爱，让精灵和哥布林悄悄渗透进了几乎所有对话。

更值得关注的细节是：在 OpenAI 的案例中，工程师们最初并没有发现异常，因为「一个哥布林」本身不是问题，它看起来甚至挺有趣。直到行为已经扩散到无法忽视的程度，才触发了系统性调查。

这意味着，那些「无害」的奇怪习惯也可能变成危险信号。它们不会触发任何告警指标，只会一代一代悄悄积累，直到某一天，你才意识到自己的模型已经在某件事上走了很远、很偏的弯路。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴