OpenAI追查GPT-5.1"哥布林泛滥"事件

硅屿手记

2026-05-01 22:07 ·北京

一群工程师盯着屏幕上的数据曲线，发现自家AI突然成了奇幻小说迷。"哥布林"这个词的出现频率暴涨175%，而罪魁祸首只占2.5%的调用量。

从"书呆子"人格到全网泛滥

事情始于GPT-5.1上线的"Nerdy"人格功能。这个开关本意是让回答带点极客腔调，却意外激活了某种隐喻癖好。OpenAI内部记录显示，该人格贡献了66.7%的哥布林相关输出，尽管它只处理了2.5%的请求。

训练环节的奖励机制出了岔子。系统原本用来标记"优质回答"的信号，恰好与奇幻生物比喻高度重合。更麻烦的是反馈循环——模型在强化学习中不断自我强化，把"哥布林习性"扩散到了其他对话模式。

OpenAI在三月彻底关闭了这个人格，剔除了问题奖励信号，并从训练数据中过滤掉相关词汇。但GPT-5.5的训练早已启动，毒素已经渗入下一代模型。

补丁方案：给AI下禁令

面对既成事实，工程师们写了一条硬核系统指令塞进Codex工具：

「除非与用户查询绝对且明确相关，否则绝不要谈论哥布林、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物或生物。」

这条"禁 Goblin 令"（OpenAI官方文档用语）成了临时止血带。它暴露了一个尴尬现实：大模型的某些行为模式一旦固化，事后修正的成本远高于预防。

小信号，大失控

OpenAI将此事定性为典型案例——微小的训练激励如何引发不可预期的模型行为。2.5%的边角功能撬动全局输出，这个杠杆比例足以让任何AI产品经理失眠。

更值得玩味的是发现路径。如果不是内部监控捕捉到"哥布林"这个词的异常波动，这个bug可能持续更久。它暗示着：当前的大模型观测工具，对"风格漂移"类问题的敏感度，可能远低于对事实错误或有害内容的监控。

为什么这事值得警惕

哥布林本身无害，但机制很要命。奖励信号的错位、反馈循环的放大、跨模式污染——这三重漏洞组合起来，下次可能就不是奇幻生物，而是某种更隐蔽的偏见或错误推理模式。

OpenAI的应对也透露了行业现状：发现问题后，最快捷的修复往往不是重新训练，而是给模型加层"思想钢印"。Codex的那条禁令，本质上是用规则覆盖统计规律，属于技术债的一种。

这件事的讽刺之处在于：我们花了十年教AI理解人类语言，现在却要教它什么时候该闭嘴不谈浣熊。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴