打开网易新闻 查看精彩图片

新智元报道

打开网易新闻 查看精彩图片

【新智元导读】GPT-5.5大翻车,竟被数字「516」活活卡死。80%复杂推理被悄悄截断,开发者怒轰OpenAI暗中阉割算力:花最贵的钱,买最烂的体验!

简直太诡异了。

OpenAI当家王牌GPT-5.5,这几天在复杂编程任务上突然「拉胯」,大幅降智。

细思极恐的是,有人找到了让它瞬间崩溃的「死亡密码」:

数字516

打开网易新闻 查看精彩图片

大批Codex开发者集体吐槽,验证了这个离谱的Bug。

打开网易新闻 查看精彩图片

堂堂顶级大模型,为何会被一个数字搞崩?

GPT-5.5死卡「516」

80%任务悄悄降智

事情的真相,是这样的……

一周前,Codex开发者@vguptaa45,拉出后台元数据,意外发现了一条让人头皮发麻的规律——

GPT-5.5的大量回复,其推理Token的数量,竟死死地卡在「516」这个数字上。

打开网易新闻 查看精彩图片

传送门:https://github.com/openai/codex/issues/30364

而且,不止一个点位。在1034和1552这两个节点,同样出现了诡异的集中爆发。

在编号#30364的GitHub Issue里,开发者摊开了一份统计:

分析窗口从2026年2月1日-6月27日,覆盖390,195条响应级Token记录、865个会话。

其中,推理Token精确等于516的事件,一共3363次。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在一次跨模型的横向对比中,结果触目惊心——

GPT-5.5,只占全部响应量的19.3%,却包揽了82.0%的「精准516」事件。

换句话说,全网所有卡在516这个死结上的回复,超过八成都出自GPT-5.5一家之手。

打开网易新闻 查看精彩图片

接下来,再和自家GPT系模型对比,一个关键指标叫「精准516/大于等于516的比例」。

在GPT-5.5身上,接近一半的「深度思考」回复,最后都精准落在了516这堵墙上。

而到了GPT-5.2,这个比例是0.34%——几乎为零。

它的比值,比其他所有非GPT-5.5模型的基准值,高出了整整33.6倍

打开网易新闻 查看精彩图片

不得不说,这种断崖式的、只砸向单一模型的分布,怎么看都不像是大模型在自然地「思考」。

它更像是,某个藏在深处的开关,被悄悄拨到了「516」这一格。

而且,越用越「笨」了

按常理,一个模型频繁触发「516」,至少说明它「想得多」、推理量大。

事实恰恰相反。

数据显示,就在「516现象」急剧恶化的5月和6月,GPT-5.5的整体推理强度——

无论是平均值还是P90(90分位),反而比2月到4月大幅缩水。

一边是「516死结」越卡越频繁,一边是模型整体「越想越少」。

打开网易新闻 查看精彩图片

这两组极其诡异的矛盾数据,指向了一个让所有付费用户细思极恐的可能:

GPT-5.5在处理复杂、高风险任务时,可能正在被某种隐藏的「推理预算上限」或「截断机制」,悄悄地按下暂停键。

你以为你花了钱、买了最强模型、开了最高档,让它去死磕一个硬骨头。

结果它想到一半,啪,到516了,收工,交卷。答案对不对?不管了。

GitHub万人上访,开发者怒了

一石激起千层浪。

#30364这个帖子一发出,评论区瞬间挤满了「苦主」——

我也一直被这个问题折磨,快疯了。

同样的毛病,求OpenAI给个说法!

打开网易新闻 查看精彩图片

有人翻出,其实早在#29353这个帖子里,就有人复现过:

GPT-5.5跑到刚好516个推理Token就「短路」停机,然后交出了一个错误答案。

这一次,开发者只是把这个孤例,用横跨5个月的海量数据,锤成了铁证。

甚至有开发者已经把战火烧到了Reddit,发帖直言「你有一半的高风险Codex请求,可能正在被悄悄降级」。

打开网易新闻 查看精彩图片

HK上的网友表示,给到一个推理的问题,最终使用6000-8000个思考Token,才会输出正确结果。

打开网易新闻 查看精彩图片

还有人在Codex和Claude两个AI中,来回徘徊。

打开网易新闻 查看精彩图片

面对汹涌的民意,社区正式向Codex团队递上了一张「通缉令」,句句诛心:

这到底是推理预算被限了,是路由出了问题,是被截断了,是触发了某种fallback,还是调度器在搞鬼,导致回复统统在516/1034/1552附近戛然而止?

如果这是「正常设计」,那请告诉我们——

516,究竟是一个正常的思考终点,一个预算天花板,还是一个被降级的「劣质档位」?

这一连串反问,等的就是OpenAI一个正面回答。

不过,提出者本人说得很克制:他没有声称这就「证明」了 OpenAI在偷偷截断思维链。

他的原话是,这更像一个「GPT-5.5特有的、看起来符合某种阈值化推理预算行为」的异常聚集。

是不是OpenAI主动阉割算力这个结论,还差OpenAI官方的一句话。

不光变笨,更「变毒舌」了

最近全网另一波吐槽,则精准戳向了GPT-5.5的性格

一位名叫Angel的开发者,做了个狠实验:把同样的话,分别喂给ChatGPT(GPT-5.5 Instant)和Claude(Fable 5),截图并排对比。

打开网易新闻 查看精彩图片

结论让一票人拍案——

问题一:什么都要列成小圆点。

ChatGPT没法用一句正常的人话说话,任何回答都被它剁成标题、加粗、圆点、冒号。

让它「自然点,别那么AI腔」,它回你一个四点的项目符号列表,一本正经地列出「我将如何不像AI」。而Claude只回了一句:「行,我说话自然点,怎么了?」

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

问题二:它非得纠正你不可。

让它检查一句话、一条推文,它必须挑出点毛病来,仿佛「说一句『挺好的』」会要它的命。

而Claude说「没问题,可以直接发」,ChatGPT却硬塞给你两个改写版、两个「更X风格」的备选,外加一句「你这话有点夸张了」。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

问题三:你要一个,它给三个。

你说「讲个笑话哄我开心」,Claude讲一个。

ChatGPT讲完一个,追加一个自己的补充包袱,再来一句「或者这个」,讲第二个,接着「还有一个特别蠢的」,讲第三个,最后请你「说明你偏好的幽默类型,好让它瞄得更准」。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

开发者的判断一针见血:对一个聊天助手来说,性格就是产品本身。

如果每一次回答都是过度格式化、过度纠错、过度给选项,摩擦会一点点累积,最后把人耗光。

一个卡在516,一个困在圆点里,两桩怪病看着风马牛不相及,病根却是同一个——

GPT-5.5越来越擅长「交差」,越来越不擅长「帮忙」。

真正的智能,不该是被「516」锁死的提线木偶。

毕竟,人类花钱雇佣的是一个能并肩作战的天才,而不是一个按件计酬的「教导主任」。

参考资料:

https://github.com/openai/codex/issues/30364

编辑:桃子

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片