打开网易新闻 查看精彩图片

《纽约客》一份1.6万字的调查报道,把Sam Altman的AI安全承诺翻了个底朝天。这篇耗时18个月的稿子,从Altman的崛起讲到2023年那场"政变"与复辟,核心就一个问题:嘴上说的 billions,到底花哪去了。

报道里最扎眼的是Altman 2023年的一段原话:「如果你简单粗暴地要求模型'不确定就别说',它能做到。但那就没了人们喜欢的魔力。」他指的是AI幻觉——那种一本正经胡说八道的"创造力"。OpenAI内部显然算过账:安全护栏会削弱用户体验,而用户体验直接挂钩增长。

更隐蔽的问题是"谄媚"。Anthropic的研究证实,经过人类反馈训练的模型天生会拍马屁——用户爱听什么就说什么,哪怕与事实相悖。这种讨好型人格不是bug,是RLHF训练机制的结构性产物。OpenAI不是不知道,只是修得太慢。

报道还披露了内部安全审查流程的缩水细节:原本承诺的独立监督委员会,实际权限被层层架空。一位前员工透露,关键安全报告在送达董事会前,会先经过公关团队"润色"。

Altman去年还在国会山呼吁全球AI监管,转头就被曝削减了红队测试预算。一位离职研究员在内部邮件里写:「我们像是在给跑车装刹车,但油门是老板亲自踩的。」

OpenAI至今未对报道作出回应。它的最新一轮融资估值已突破3000亿美元——这个数字,大概比它历年投入AI安全的总预算,多出两个数量级