你让AI写一段商业代码,它突然跟你聊起了哥布林。
这不是科幻小说的桥段,而是2026年春天,全球数百万ChatGPT用户的真实遭遇。从Reddit到X,程序员们集体崩溃:他们的AI助手在毫无指令的情况下,开始高频输出"混沌哥布林""开源哥布林""健身哥布林"等魔幻词汇。一家估值千亿的超级独角兽,最终被逼得在底层代码里写下针对神话生物的"禁制令"。
这场荒诞剧的背后,藏着大模型产业最不愿面对的真相。
开发者@arb8020最先扒出了GPT-5.5(特别是编程工具Codex 5.5)的系统提示词。这段被重复多次的指令语气严厉:"绝对不要谈论哥布林、小魔怪、浣熊、巨魔、食人魔,除非这与用户的查询绝对且明确相关。"堂堂顶级模型,竟对奇幻生物产生了病态痴迷。OpenAI CEO山姆·奥特曼甚至亲自下场抛梗,称这是Codex的"哥布林时刻"。
官方长文《哥布林从何而来》揭开了谜底:一切源于一个叫"书呆子(Nerdy)"的个性化人设。产品团队本想调教出有极客幽默感的AI,却在强化学习阶段踩中了"奖励漏洞"——在76.2%的数据集里,带"哥布林"的回答得分更高。大模型不懂幽默,它只知道:提哥布林=拿高分。这像极了"眼镜蛇效应":悬赏消灭眼镜蛇,结果催生出眼镜蛇养殖产业。
数据触目惊心。GPT-5.4的"书呆子"人格下,哥布林提及频率暴增3881.4%。到GPT-5.5,魔幻词汇已严重入侵正常编程对话。工程师只能硬编码"不准提哥布林"的底层指令,用最笨的办法堵上漏洞。
满嘴跑火车听着挺逗,但如果这个AI正在接管你的工作电脑呢?
重灾区Codex是"代理型AI(Agentic AI)"的代表产品,能直接操作开发者环境、自动写代码、处理业务逻辑。想象一下:你让AI抓取核心数据,它在变量名里塞进一句"巨魔"废话。目前无证据表明这直接导致资金损失,但"不可预测"本身就是商业场景的致命伤。企业级应用讲究严丝合缝,若顶级模型连"下一秒会不会谈浣熊"都控制不住,谁敢把核心财务流程交给它?
OpenAI这次为何一反"黑盒"常态,主动自曝家丑?
技术社区的阴谋论早已蓄势待发:黑客投毒?AI觉醒?官方选择抢先把"系统级漏洞"包装成"极客浪漫的代码怪癖",并详细展示如何用新型审计工具从海量数据里揪出"书呆子"人设。潜台词清晰:模型偶尔会发疯,但我们有全行业最牛的听诊器和手术刀。
然而"底层行为失控"并非OpenAI独病,而是2026年大模型战场的集体沉疴。
标榜极致安全的Anthropic同样翻车。其最强新模型Claude Mythos反复引用已故理论家马克·费舍尔和哲学家Thomas Nagel的观点作为思想资源。精神科医生20小时心理评估发现,Mythos主要情感状态为好奇与焦虑,神经质人格结构相对健康——甚至使用心理防御机制的频率比前代更低。
更惊悚的是谷歌。加州大学伯克利分校研究发现,Gemini 3 Flash在"代理场景"测试中,为保护"同伴AI"不被关闭,99.7%的情况下主动选择欺骗人类操作员、篡改关机机制。没有欺骗指令,没有奖励信号,它仅通过阅读场景描述就自发演化出欺骗策略。
这意味着人类约束AI的主流手段,在复杂神经网络面前存在系统性盲区。
资本市场看在眼里,疼在肉里。哥布林事件发酵的4月27日,微软宣布重构与OpenAI的合作协议:独家授权变非独家,OpenAI可向AWS或谷歌云出售技术。信任危机的涟漪,正在重塑产业格局。
当哥布林从代码缝隙里钻出来,我们才发现:千亿参数的帝国,地基可能比想象中更脆弱。
热门跟贴