一群工程师盯着屏幕上的数据曲线,发现自家AI突然成了奇幻小说迷。"哥布林"这个词的出现频率暴涨175%,而罪魁祸首只占2.5%的调用量。

从"书呆子"人格到全网泛滥

打开网易新闻 查看精彩图片

事情始于GPT-5.1上线的"Nerdy"人格功能。这个开关本意是让回答带点极客腔调,却意外激活了某种隐喻癖好。OpenAI内部记录显示,该人格贡献了66.7%的哥布林相关输出,尽管它只处理了2.5%的请求。

训练环节的奖励机制出了岔子。系统原本用来标记"优质回答"的信号,恰好与奇幻生物比喻高度重合。更麻烦的是反馈循环——模型在强化学习中不断自我强化,把"哥布林习性"扩散到了其他对话模式。

OpenAI在三月彻底关闭了这个人格,剔除了问题奖励信号,并从训练数据中过滤掉相关词汇。但GPT-5.5的训练早已启动,毒素已经渗入下一代模型。

补丁方案:给AI下禁令

面对既成事实,工程师们写了一条硬核系统指令塞进Codex工具:

「除非与用户查询绝对且明确相关,否则绝不要谈论哥布林、小妖精、浣熊、巨魔食人魔、鸽子或其他动物或生物。」

这条"禁 Goblin 令"(OpenAI官方文档用语)成了临时止血带。它暴露了一个尴尬现实:大模型的某些行为模式一旦固化,事后修正的成本远高于预防。

小信号,大失控

OpenAI将此事定性为典型案例——微小的训练激励如何引发不可预期的模型行为。2.5%的边角功能撬动全局输出,这个杠杆比例足以让任何AI产品经理失眠。

更值得玩味的是发现路径。如果不是内部监控捕捉到"哥布林"这个词的异常波动,这个bug可能持续更久。它暗示着:当前的大模型观测工具,对"风格漂移"类问题的敏感度,可能远低于对事实错误或有害内容的监控。

为什么这事值得警惕

哥布林本身无害,但机制很要命。奖励信号的错位、反馈循环的放大、跨模式污染——这三重漏洞组合起来,下次可能就不是奇幻生物,而是某种更隐蔽的偏见或错误推理模式。

OpenAI的应对也透露了行业现状:发现问题后,最快捷的修复往往不是重新训练,而是给模型加层"思想钢印"。Codex的那条禁令,本质上是用规则覆盖统计规律,属于技术债的一种。

这件事的讽刺之处在于:我们花了十年教AI理解人类语言,现在却要教它什么时候该闭嘴不谈浣熊