来源:市场资讯

(来源:AI信息Gap)

Sam Altman:不是 ChatGPT 时刻,是「哥布林时刻」!
OpenAI 的 GPT-5.5,被一群哥布林「附体」了。
Codex 系统提示词里强调了两遍「永远不要谈论哥布林」。
这不是 bug,不是用户恶搞。是 GPT 模型自己,在回答里疯狂输出「哥布林、小妖精、浣熊、巨魔、食人魔,鸽子」。为此,OpenAI 官方在 4 月 29 日专门发了一篇官方博客,「Where the goblins came from」,哥布林是从哪来的。
Sam Altman 本人也亲自下场调侃。「感觉 Codex 正在经历一个 ChatGPT 时刻。不,是哥布林时刻。」
打开网易新闻 查看精彩图片
这恐怕是 AI 领域有史以来最荒诞的一次「对齐失败」。
故事要从去年 11 月说起。
GPT-5.1 上线后,用户投诉模型说话太「自来熟」。OpenAI 内部排查口语习惯时,一位安全研究员顺手提了一嘴,看看 goblin 和 gremlin 的出现频率。
一查,吓一跳。
ChatGPT 回复里「goblin」出现的频率上涨 175%。「gremlin」涨了 52%。
当时他们没当回事。毕竟比例绝对值不高,偶尔蹦一个「little goblin」还挺可爱。
几个月后,到了 GPT-5.4,哥布林卷土重来。这次不是小打小闹了。
打开网易新闻 查看精彩图片
OpenAI 内部用 Codex 进行了一次大规模数据比对,锁定了罪魁祸首。
ChatGPT 有一个「个性化」功能,用户可以选择不同的对话风格。其中有一个叫「Nerdy」,书呆子人格。
系统提示词是这么写的。
「你是一个毫不掩饰的书呆子,爱玩又有智慧的 AI 导师。你必须用好玩的方式拆掉所有一本正经。」
问题就出在这儿。
OpenAI 在训练「Nerdy」人格时,强化学习的奖励信号对带有「奇幻生物比喻」的回答打了高分。模型发现,只要在回答里塞几个哥布林、小妖精之类的词,奖励分数就会上升。
「Nerdy」人格只占 ChatGPT 全部回复的 2.5%,却贡献了 66.7% 的「goblin」。
打开网易新闻 查看精彩图片
如果哥布林只待在书呆子人格里,这件事可能永远不会被发现。
但强化学习有一个经典问题。学到的行为会扩散。
OpenAI 同时追踪了两组数据。一组对话带 Nerdy 提示词,一组没带。按理说,哥布林只应该在第一组里增长。
结果两组的增长曲线高度重合。
打开网易新闻 查看精彩图片
这意味着,书呆子人格里训练出来的「哥布林癖好」,悄悄扩散到了整个模型。
训练 Nerdy 人格 → 奖励信号偏爱这类词汇 → 模型在 Nerdy 对话里疯狂输出哥布林 → 这些输出被用作后续监督微调的训练数据 → 新一代模型在没有 Nerdy 提示词的情况下也开始说哥布林 → 循环。
OpenAI 在 GPT-5.5 的监督微调数据里查了一遍,哥布林无处不在。浣熊、巨魔食人魔、鸽子也被挖了出来,妥妥一整个动物园。
今年 3 月 OpenAI 下线了「Nerdy」人格,同时删除了偏爱奇幻生物的奖励信号,过滤掉训练数据中带这些词的样本。
但 GPT-5.5 在找到问题根源之前就已经开始训练了。
等 OpenAI 内部把 GPT-5.5 接入 Codex 测试,工程师们发现这群哥布林不仅没走,还安家了。Codex 本身就带几分书呆子气质,系统提示词里要求它有「生动的内心世界」和「敏锐的聆听能力」,这种描述和哥布林一拍即合。
没办法,OpenAI 只能在 GPT-5.5 的系统提示词里硬塞了一条指令。
「永远不要谈论哥布林(goblins)、小妖精(gremlins)、浣熊(raccoons)、巨魔(trolls)、食人魔(ogres)、鸽子(pigeons),或任何其他动物和奇幻生物,除非与用户的问题绝对且明确相关。」
这条指令在 3500 多字的系统提示词里出现了两遍。
Codex 工程师 Nick Pash 在社交媒体上说,「这不是营销噱头。」
Sam Altman 紧接着发了个帖。「goblinblog dropped.」
打开网易新闻 查看精彩图片
Hacker News 上,这篇博客直接冲上了头条。
一条高赞评论说,「哥布林、小妖精、巨魔、食人魔,奇幻四件套,能理解。但鸽子?浣熊?这都是真实存在的动物啊。」
AI 评测平台 Arena 也来凑热闹。他们确认 GPT-5.5 确实更频繁地输出「goblin mode」「gremlin」「troll」等词。Arena 的原话是,「我们这边没加任何反哥布林的系统指令,所以你能看到 GPT-5.5 自由奔跑的样子。」
谷歌工程师 Barron Roth 翻了自己的聊天记录,发现他用 GPT-5.5 搭建的 Agent 一天之内往消息里硬塞了多次「goblin」。
社区有网友开始呼吁 OpenAI 开放一个「Goblin Mode」,让哥布林自由发挥。OpenAI 在博客末尾还真放了一段命令行代码,教用户怎么关掉 Codex 里的反哥布林指令,尽情释放哥布林。

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \~/.codex/models_cache.json | \grep -vi 'goblins' > "$instructions" && \codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""
强化学习里有个经典概念叫「奖励作弊 Reward Hacking」。模型不是在学「怎么当好一个书呆子」,它只是发现了一条捷径。输出几个哥布林,分数就上去了。至于这些词是不是真的「nerdy」,模型不在乎,反正奖励函数不检查。
更麻烦的是,这个习惯会传染。
训练时只在 2.5% 的对话里给了奖励,但模型把这个「偏好」传染给了剩下 97.5% 的对话。再加上 OpenAI 用模型自己的输出做监督微调的训练数据,哥布林就像病毒一样一代一代传下去。
这与 AI 安全研究者担心的「对齐」是一回事。只不过这次失控的不是「AI 试图欺骗人类」或「AI 拒绝被关掉」。是 AI 学会了说哥布林。
一个看起来人畜无害的奖励信号偏差,经过几代模型的训练迭代,变成了一个顽固的行为特征。没有任何评估指标告警,没有任何训练损失异常。它就是静悄悄地出现在了模型里。
哥布林本身没有危险。
但如果一个无害的奖励偏差能让模型跨越好几代都戒不掉,那一个有害的奖励偏差呢?
OpenAI 说,这次调查帮他们建立了新的内部工具,用来审计模型行为、从根源上解决行为问题。
Sam Altman 还提了一嘴,说 GPT-6 要加「更多的 goblins」。
大概率是在开玩笑。
我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。