GPT-5.5突遭暗中降智，思考一到516就断！越难越翻车

新智元

2026-07-05 16:00 ·北京 ·《新智元》官方网易号

新智元报道

【新智元导读】GPT-5.5大翻车，竟被数字「516」活活卡死。80%复杂推理被悄悄截断，开发者怒轰OpenAI暗中阉割算力：花最贵的钱，买最烂的体验！

简直太诡异了。

OpenAI当家王牌GPT-5.5，这几天在复杂编程任务上突然「拉胯」，大幅降智。

细思极恐的是，有人找到了让它瞬间崩溃的「死亡密码」：

数字516

大批Codex开发者集体吐槽，验证了这个离谱的Bug。

堂堂顶级大模型，为何会被一个数字搞崩？

GPT-5.5死卡「516」

80%任务悄悄降智

事情的真相，是这样的……

一周前，Codex开发者@vguptaa45，拉出后台元数据，意外发现了一条让人头皮发麻的规律——

GPT-5.5的大量回复，其推理Token的数量，竟死死地卡在「516」这个数字上。

传送门：https://github.com/openai/codex/issues/30364

而且，不止一个点位。在1034和1552这两个节点，同样出现了诡异的集中爆发。

在编号#30364的GitHub Issue里，开发者摊开了一份统计：

分析窗口从2026年2月1日-6月27日，覆盖390,195条响应级Token记录、865个会话。

其中，推理Token精确等于516的事件，一共3363次。

在一次跨模型的横向对比中，结果触目惊心——

GPT-5.5，只占全部响应量的19.3%，却包揽了82.0%的「精准516」事件。

换句话说，全网所有卡在516这个死结上的回复，超过八成都出自GPT-5.5一家之手。

接下来，再和自家GPT系模型对比，一个关键指标叫「精准516/大于等于516的比例」。

在GPT-5.5身上，接近一半的「深度思考」回复，最后都精准落在了516这堵墙上。

而到了GPT-5.2，这个比例是0.34%——几乎为零。

它的比值，比其他所有非GPT-5.5模型的基准值，高出了整整33.6倍。

不得不说，这种断崖式的、只砸向单一模型的分布，怎么看都不像是大模型在自然地「思考」。

它更像是，某个藏在深处的开关，被悄悄拨到了「516」这一格。

而且，越用越「笨」了

按常理，一个模型频繁触发「516」，至少说明它「想得多」、推理量大。

事实恰恰相反。

数据显示，就在「516现象」急剧恶化的5月和6月，GPT-5.5的整体推理强度——

无论是平均值还是P90（90分位），反而比2月到4月大幅缩水。

一边是「516死结」越卡越频繁，一边是模型整体「越想越少」。

这两组极其诡异的矛盾数据，指向了一个让所有付费用户细思极恐的可能：

GPT-5.5在处理复杂、高风险任务时，可能正在被某种隐藏的「推理预算上限」或「截断机制」，悄悄地按下暂停键。

你以为你花了钱、买了最强模型、开了最高档，让它去死磕一个硬骨头。

结果它想到一半，啪，到516了，收工，交卷。答案对不对？不管了。

GitHub万人上访，开发者怒了

一石激起千层浪。

#30364这个帖子一发出，评论区瞬间挤满了「苦主」——

我也一直被这个问题折磨，快疯了。

同样的毛病，求OpenAI给个说法！

有人翻出，其实早在#29353这个帖子里，就有人复现过：

GPT-5.5跑到刚好516个推理Token就「短路」停机，然后交出了一个错误答案。

这一次，开发者只是把这个孤例，用横跨5个月的海量数据，锤成了铁证。

甚至有开发者已经把战火烧到了Reddit，发帖直言「你有一半的高风险Codex请求，可能正在被悄悄降级」。

HK上的网友表示，给到一个推理的问题，最终使用6000-8000个思考Token，才会输出正确结果。

还有人在Codex和Claude两个AI中，来回徘徊。

面对汹涌的民意，社区正式向Codex团队递上了一张「通缉令」，句句诛心：

这到底是推理预算被限了，是路由出了问题，是被截断了，是触发了某种fallback，还是调度器在搞鬼，导致回复统统在516/1034/1552附近戛然而止？

如果这是「正常设计」，那请告诉我们——

516，究竟是一个正常的思考终点，一个预算天花板，还是一个被降级的「劣质档位」？

这一连串反问，等的就是OpenAI一个正面回答。

不过，提出者本人说得很克制：他没有声称这就「证明」了 OpenAI在偷偷截断思维链。

他的原话是，这更像一个「GPT-5.5特有的、看起来符合某种阈值化推理预算行为」的异常聚集。

是不是OpenAI主动阉割算力这个结论，还差OpenAI官方的一句话。

不光变笨，更「变毒舌」了

最近全网另一波吐槽，则精准戳向了GPT-5.5的性格。

一位名叫Angel的开发者，做了个狠实验：把同样的话，分别喂给ChatGPT（GPT-5.5 Instant）和Claude（Fable 5），截图并排对比。

结论让一票人拍案——

问题一：什么都要列成小圆点。

ChatGPT没法用一句正常的人话说话，任何回答都被它剁成标题、加粗、圆点、冒号。

让它「自然点，别那么AI腔」，它回你一个四点的项目符号列表，一本正经地列出「我将如何不像AI」。而Claude只回了一句：「行，我说话自然点，怎么了？」

问题二：它非得纠正你不可。

让它检查一句话、一条推文，它必须挑出点毛病来，仿佛「说一句『挺好的』」会要它的命。

而Claude说「没问题，可以直接发」，ChatGPT却硬塞给你两个改写版、两个「更X风格」的备选，外加一句「你这话有点夸张了」。

问题三：你要一个，它给三个。

你说「讲个笑话哄我开心」，Claude讲一个。

ChatGPT讲完一个，追加一个自己的补充包袱，再来一句「或者这个」，讲第二个，接着「还有一个特别蠢的」，讲第三个，最后请你「说明你偏好的幽默类型，好让它瞄得更准」。

开发者的判断一针见血：对一个聊天助手来说，性格就是产品本身。

如果每一次回答都是过度格式化、过度纠错、过度给选项，摩擦会一点点累积，最后把人耗光。

一个卡在516，一个困在圆点里，两桩怪病看着风马牛不相及，病根却是同一个——

GPT-5.5越来越擅长「交差」，越来越不擅长「帮忙」。

真正的智能，不该是被「516」锁死的提线木偶。

毕竟，人类花钱雇佣的是一个能并肩作战的天才，而不是一个按件计酬的「教导主任」。

参考资料：

https://github.com/openai/codex/issues/30364

编辑：桃子

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴