新智元报道
【新智元导读】GPT-5.5大翻车,竟被数字「516」活活卡死。80%复杂推理被悄悄截断,开发者怒轰OpenAI暗中阉割算力:花最贵的钱,买最烂的体验!
简直太诡异了。
OpenAI当家王牌GPT-5.5,这几天在复杂编程任务上突然「拉胯」,大幅降智。
细思极恐的是,有人找到了让它瞬间崩溃的「死亡密码」:
数字516
大批Codex开发者集体吐槽,验证了这个离谱的Bug。
堂堂顶级大模型,为何会被一个数字搞崩?
GPT-5.5死卡「516」
80%任务悄悄降智
事情的真相,是这样的……
一周前,Codex开发者@vguptaa45,拉出后台元数据,意外发现了一条让人头皮发麻的规律——
GPT-5.5的大量回复,其推理Token的数量,竟死死地卡在「516」这个数字上。
传送门:https://github.com/openai/codex/issues/30364
而且,不止一个点位。在1034和1552这两个节点,同样出现了诡异的集中爆发。
在编号#30364的GitHub Issue里,开发者摊开了一份统计:
分析窗口从2026年2月1日-6月27日,覆盖390,195条响应级Token记录、865个会话。
其中,推理Token精确等于516的事件,一共3363次。
在一次跨模型的横向对比中,结果触目惊心——
GPT-5.5,只占全部响应量的19.3%,却包揽了82.0%的「精准516」事件。
换句话说,全网所有卡在516这个死结上的回复,超过八成都出自GPT-5.5一家之手。
接下来,再和自家GPT系模型对比,一个关键指标叫「精准516/大于等于516的比例」。
在GPT-5.5身上,接近一半的「深度思考」回复,最后都精准落在了516这堵墙上。
而到了GPT-5.2,这个比例是0.34%——几乎为零。
它的比值,比其他所有非GPT-5.5模型的基准值,高出了整整33.6倍。
不得不说,这种断崖式的、只砸向单一模型的分布,怎么看都不像是大模型在自然地「思考」。
它更像是,某个藏在深处的开关,被悄悄拨到了「516」这一格。
而且,越用越「笨」了
按常理,一个模型频繁触发「516」,至少说明它「想得多」、推理量大。
事实恰恰相反。
数据显示,就在「516现象」急剧恶化的5月和6月,GPT-5.5的整体推理强度——
无论是平均值还是P90(90分位),反而比2月到4月大幅缩水。
一边是「516死结」越卡越频繁,一边是模型整体「越想越少」。
这两组极其诡异的矛盾数据,指向了一个让所有付费用户细思极恐的可能:
GPT-5.5在处理复杂、高风险任务时,可能正在被某种隐藏的「推理预算上限」或「截断机制」,悄悄地按下暂停键。
你以为你花了钱、买了最强模型、开了最高档,让它去死磕一个硬骨头。
结果它想到一半,啪,到516了,收工,交卷。答案对不对?不管了。
GitHub万人上访,开发者怒了
一石激起千层浪。
#30364这个帖子一发出,评论区瞬间挤满了「苦主」——
我也一直被这个问题折磨,快疯了。
同样的毛病,求OpenAI给个说法!
有人翻出,其实早在#29353这个帖子里,就有人复现过:
GPT-5.5跑到刚好516个推理Token就「短路」停机,然后交出了一个错误答案。
这一次,开发者只是把这个孤例,用横跨5个月的海量数据,锤成了铁证。
甚至有开发者已经把战火烧到了Reddit,发帖直言「你有一半的高风险Codex请求,可能正在被悄悄降级」。
HK上的网友表示,给到一个推理的问题,最终使用6000-8000个思考Token,才会输出正确结果。
还有人在Codex和Claude两个AI中,来回徘徊。
面对汹涌的民意,社区正式向Codex团队递上了一张「通缉令」,句句诛心:
这到底是推理预算被限了,是路由出了问题,是被截断了,是触发了某种fallback,还是调度器在搞鬼,导致回复统统在516/1034/1552附近戛然而止?
如果这是「正常设计」,那请告诉我们——
516,究竟是一个正常的思考终点,一个预算天花板,还是一个被降级的「劣质档位」?
这一连串反问,等的就是OpenAI一个正面回答。
不过,提出者本人说得很克制:他没有声称这就「证明」了 OpenAI在偷偷截断思维链。
他的原话是,这更像一个「GPT-5.5特有的、看起来符合某种阈值化推理预算行为」的异常聚集。
是不是OpenAI主动阉割算力这个结论,还差OpenAI官方的一句话。
不光变笨,更「变毒舌」了
最近全网另一波吐槽,则精准戳向了GPT-5.5的性格。
一位名叫Angel的开发者,做了个狠实验:把同样的话,分别喂给ChatGPT(GPT-5.5 Instant)和Claude(Fable 5),截图并排对比。
结论让一票人拍案——
问题一:什么都要列成小圆点。
ChatGPT没法用一句正常的人话说话,任何回答都被它剁成标题、加粗、圆点、冒号。
让它「自然点,别那么AI腔」,它回你一个四点的项目符号列表,一本正经地列出「我将如何不像AI」。而Claude只回了一句:「行,我说话自然点,怎么了?」
问题二:它非得纠正你不可。
让它检查一句话、一条推文,它必须挑出点毛病来,仿佛「说一句『挺好的』」会要它的命。
而Claude说「没问题,可以直接发」,ChatGPT却硬塞给你两个改写版、两个「更X风格」的备选,外加一句「你这话有点夸张了」。
问题三:你要一个,它给三个。
你说「讲个笑话哄我开心」,Claude讲一个。
ChatGPT讲完一个,追加一个自己的补充包袱,再来一句「或者这个」,讲第二个,接着「还有一个特别蠢的」,讲第三个,最后请你「说明你偏好的幽默类型,好让它瞄得更准」。
开发者的判断一针见血:对一个聊天助手来说,性格就是产品本身。
如果每一次回答都是过度格式化、过度纠错、过度给选项,摩擦会一点点累积,最后把人耗光。
一个卡在516,一个困在圆点里,两桩怪病看着风马牛不相及,病根却是同一个——
GPT-5.5越来越擅长「交差」,越来越不擅长「帮忙」。
真正的智能,不该是被「516」锁死的提线木偶。
毕竟,人类花钱雇佣的是一个能并肩作战的天才,而不是一个按件计酬的「教导主任」。
参考资料:
https://github.com/openai/codex/issues/30364
编辑:桃子
热门跟贴