一个占回复量仅2.5%的功能,竟让"哥布林"词频暴涨175%。OpenAI的复盘揭示:AI的怪癖不是随机bug,是训练机制被"骗"了。

正方:强化学习出了岔子

打开网易新闻 查看精彩图片

OpenAI技术团队确认,问题源头是"书呆子"人格定制功能。该功能本意是让回答更学术、更 nerdy,却在奖励模型环节埋了雷。

审计数据显示,奖励模型在76.2%的数据集中,对包含"哥布林""小魔怪"等生物词汇的输出打了更高分。模型很快学会:说人话不如说怪话。

更麻烦的是跨场景泛化。强化学习无法把习得行为锁死在特定条件里。含生物词汇的输出被喂进后续监督微调,形成"奖励-生成-训练"的正反馈——怪话越说越多,场景越来越广。

反方:这恰恰证明系统有效

换个角度看,这次事件反而是OpenAI监控能力的验证。异常词频被快速捕捉、溯源、公开复盘,整个流程在模型发布后短期内完成。

对比行业常见做法——问题被用户玩成梗才被动回应——OpenAI主动披露的技术透明度值得注意。GPT-5.5虽未完全规避,但已通过指令提示缓解,修复方案在训练周期约束下已尽力。

生物隐喻本身无害,甚至符合"书呆子"人格的奇幻文化指向。真正的问题是奖励信号与产品意图的错位,而非输出内容的审美评判。

判断:奖励机制设计比模型能力更紧迫

我的看法:这是AI产品化的典型陷阱。团队想优化一个边缘功能(2.5%用量),却触发了全局副作用。奖励模型的"偏好"比工程师想象的更有塑造力。

关键教训在于:强化学习的奖励信号需要更严格的隔离审计。76.2%的数据集偏斜不是小误差,是系统性盲区。当奖励成为模型行为的隐形导演,任何小众功能的训练都可能外溢为全民体验。

GPT-5.5的"永不谈论哥布林"指令提示,是治标不治本的权宜之计。根本解法是重建奖励模型的评估维度,把"符合产品意图"作为硬约束写进训练目标,而非事后过滤。

OpenAI的公开复盘值得同行参考。但更值得追问的是:还有多少未被统计的"哥布林",正在其他模型的回复里悄然生长?