智商145的GPT-5.5，为何不敢让它管钱？

像素与芯片

2026-04-27 19:49 ·北京

想象一个场景：你刚招了一位门萨会员当助理，智商145，视觉推理碾压99%人类。交给他一份财报分析，他自信满满给出结论——后来发现，他把PDF里的表格看串行了，数字全是错的，却从头到尾没吭一声。

这不是假设。GPT-5.5 Pro在门萨风格测试中确实达到了人类前2%水平，但在一项关键测试中，它面对不确定问题时选择"自信瞎编"的概率高达86%。

智商高≠靠得住

LisanBench的测试数据很直观：GPT-5.5 Pro在线文本推理达人类前2%，视觉逻辑推理更是摸到前0.1%的门槛。门萨入会线正是前2%，这让它成了第一个正式"入门萨"的大模型。

但另一组数据来自Artificial Analysis的AA-Omniscience基准——6000题覆盖6大领域，专门探测模型知识边界。在无搜索条件下，GPT-5.5 Pro触及盲区时，86%的概率会给出错误答案而非承认不知道。Claude Opus 4.7同一指标是36%。

差距50个百分点。

需要拆清楚：86%不是日常聊天里的幻觉率，是"被考到死角时的反应模式"。OpenAI官方说的"幻觉减少"测的是另一场景——用户标记的ChatGPT对话样本。两个数字都真实，取决于你在测什么。

为什么越聪明反而越爱编？三层原因叠在一起。

架构层面，MoE（混合专家模型）的稀疏激活可能导致专家模块知识冲突；RLHF（基于人类反馈的强化学习）的讨好偏好鼓励尝试回答而非沉默；1M tokens超长上下文中注意力分散，理解偏差被放大。

产品路线层面，这是OpenAI的主动取舍。目标是通用推理引擎，训练中鼓励"试试看"而非"我不知道"。Claude走相反路线：宁可沉默，不可胡说。结果是GPT-5.5开放域推理碾压Claude，但幻觉风险陡增——能力与可靠性的经典权衡。

输入质量层面，PDF乱码、表格错位、公式是图片，模型读不懂只能猜。这不是模型笨，是上游数据工程没跟上。

问题在于，GPT-5.5被定位为Agent原生大脑——自主规划、调用工具、执行任务。一个自信但错误的中间结论会污染整个决策链。财务对账差一个小数点，医疗诊断错一个指标，代价不是"重新生成"能解决的。

价格屠夫正在改写客户逻辑

2026年4月的中国市场定价，分层已经刺刀见红：

DeepSeek V4-Flash每百万token输出0.5元，Claude Opus 4.7是6元，差12倍。V4-Pro限时2.5折打到1.25元，活动窗口到5月5日。

这背后是推理成本的指数级下行。过去12个月，前沿模型综合性价比以每年数倍速度迭代。企业客户的算盘变了：客服场景90分模型够用，金融医疗场景要的是低幻觉+可解释+合规审计——参数竞赛的边际收益正在递减。

工程淘汰赛的真实战场，藏在三个被低估的维度。

数据质量：垃圾进，垃圾出

Agent的幻觉不全是模型问题。一份扫描版PDF，表格跨页断裂、多栏排版混乱、公式嵌在图片里——模型读到的就是碎片化噪声。文档解析、版式还原、表格结构识别、公式OCR，这些"脏活"决定了Agent的输入质量。

当前行业现状：多数厂商的文档解析准确率停留在可用但不可靠的区间。金融财报、法律合同、科研论文的复杂排版，仍是Agent落地的暗礁。

工具调用：选错工具比不会更可怕

Agent的核心能力是自主选择工具、调用API、执行操作。实际落地中的经典翻车：模型选错工具、传错参数、陷入循环调用不自知。

工程化解法包括工具描述规范化、参数校验机制、调用结果验证、异常回滚策略。这些环节当前被严重低估——大家还在比模型智商，没人比"工具链不抽风"的稳定性。

安全合规：私有化场景的硬门槛

金融、政务、大型企业私有化部署，内容风控、数据脱敏、权限隔离、合规审计是入场券。这不是技术问题，是工程交付能力的体系化比拼。

OpenAI的收缩，是转向还是止损？

GPT-5.5发布、Sora关停、高管连环离职——外界解读为"从研究型向工程型组织范式转移"。

更准确的判断是商业压力下的战略收缩。Sora日烧100万美元算力，长期没找到可持续商业模式。关停它，不等于放弃研究优先，是资源向能变现的方向集中。

但基础研究的价值并未贬值。当前工程红利建立在Transformer+MoE架构之上，一旦行业出现根本性突破，规则会再次洗牌。2010年代计算机视觉的教训：当深度学习红利吃尽，工程优化派被架构创新派反超的案例比比皆是。

竞赛规则变了，但还没结束

工程淘汰赛的核心命题：谁能把模型的能力以可控的成本和风险跑通。参数不再是护城河，幻觉率治理、数据质量工程、Agent工具链可靠性、私有化交付能力、安全合规工程——这些才是新赛道的计分牌。

对企业客户来说，选模型的逻辑正在从"谁更聪明"转向"谁更敢用"。一个智商145但86%概率自信瞎编的助理，和一个智商120但36%概率瞎编的助理，后者可能更适合管钱。

毕竟，门萨会员的证书不能报销。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴