想象一个场景:你刚招了一位门萨会员当助理,智商145,视觉推理碾压99%人类。交给他一份财报分析,他自信满满给出结论——后来发现,他把PDF里的表格看串行了,数字全是错的,却从头到尾没吭一声。

这不是假设。GPT-5.5 Pro在门萨风格测试中确实达到了人类前2%水平,但在一项关键测试中,它面对不确定问题时选择"自信瞎编"的概率高达86%。

打开网易新闻 查看精彩图片

智商高≠靠得住

LisanBench的测试数据很直观:GPT-5.5 Pro在线文本推理达人类前2%,视觉逻辑推理更是摸到前0.1%的门槛。门萨入会线正是前2%,这让它成了第一个正式"入门萨"的大模型。

但另一组数据来自Artificial Analysis的AA-Omniscience基准——6000题覆盖6大领域,专门探测模型知识边界。在无搜索条件下,GPT-5.5 Pro触及盲区时,86%的概率会给出错误答案而非承认不知道。Claude Opus 4.7同一指标是36%。

差距50个百分点。

需要拆清楚:86%不是日常聊天里的幻觉率,是"被考到死角时的反应模式"。OpenAI官方说的"幻觉减少"测的是另一场景——用户标记的ChatGPT对话样本。两个数字都真实,取决于你在测什么。

为什么越聪明反而越爱编?三层原因叠在一起。

架构层面,MoE(混合专家模型)的稀疏激活可能导致专家模块知识冲突;RLHF(基于人类反馈的强化学习)的讨好偏好鼓励尝试回答而非沉默;1M tokens超长上下文中注意力分散,理解偏差被放大。

产品路线层面,这是OpenAI的主动取舍。目标是通用推理引擎,训练中鼓励"试试看"而非"我不知道"。Claude走相反路线:宁可沉默,不可胡说。结果是GPT-5.5开放域推理碾压Claude,但幻觉风险陡增——能力与可靠性的经典权衡。

输入质量层面,PDF乱码、表格错位、公式是图片,模型读不懂只能猜。这不是模型笨,是上游数据工程没跟上。

问题在于,GPT-5.5被定位为Agent原生大脑——自主规划、调用工具、执行任务。一个自信但错误的中间结论会污染整个决策链。财务对账差一个小数点,医疗诊断错一个指标,代价不是"重新生成"能解决的。

价格屠夫正在改写客户逻辑

2026年4月的中国市场定价,分层已经刺刀见红:

DeepSeek V4-Flash每百万token输出0.5元,Claude Opus 4.7是6元,差12倍。V4-Pro限时2.5折打到1.25元,活动窗口到5月5日。

这背后是推理成本的指数级下行。过去12个月,前沿模型综合性价比以每年数倍速度迭代。企业客户的算盘变了:客服场景90分模型够用,金融医疗场景要的是低幻觉+可解释+合规审计——参数竞赛的边际收益正在递减。

工程淘汰赛的真实战场,藏在三个被低估的维度。

数据质量:垃圾进,垃圾出

Agent的幻觉不全是模型问题。一份扫描版PDF,表格跨页断裂、多栏排版混乱、公式嵌在图片里——模型读到的就是碎片化噪声。文档解析、版式还原、表格结构识别、公式OCR,这些"脏活"决定了Agent的输入质量。

当前行业现状:多数厂商的文档解析准确率停留在可用但不可靠的区间。金融财报、法律合同、科研论文的复杂排版,仍是Agent落地的暗礁。

工具调用:选错工具比不会更可怕

Agent的核心能力是自主选择工具、调用API、执行操作。实际落地中的经典翻车:模型选错工具、传错参数、陷入循环调用不自知。

工程化解法包括工具描述规范化、参数校验机制、调用结果验证、异常回滚策略。这些环节当前被严重低估——大家还在比模型智商,没人比"工具链不抽风"的稳定性。

安全合规:私有化场景的硬门槛

金融、政务、大型企业私有化部署,内容风控、数据脱敏、权限隔离、合规审计是入场券。这不是技术问题,是工程交付能力的体系化比拼。

OpenAI的收缩,是转向还是止损?

GPT-5.5发布、Sora关停、高管连环离职——外界解读为"从研究型向工程型组织范式转移"。

更准确的判断是商业压力下的战略收缩。Sora日烧100万美元算力,长期没找到可持续商业模式。关停它,不等于放弃研究优先,是资源向能变现的方向集中。

但基础研究的价值并未贬值。当前工程红利建立在Transformer+MoE架构之上,一旦行业出现根本性突破,规则会再次洗牌。2010年代计算机视觉的教训:当深度学习红利吃尽,工程优化派被架构创新派反超的案例比比皆是。

竞赛规则变了,但还没结束

工程淘汰赛的核心命题:谁能把模型的能力以可控的成本和风险跑通。参数不再是护城河,幻觉率治理、数据质量工程、Agent工具链可靠性、私有化交付能力、安全合规工程——这些才是新赛道的计分牌。

对企业客户来说,选模型的逻辑正在从"谁更聪明"转向"谁更敢用"。一个智商145但86%概率自信瞎编的助理,和一个智商120但36%概率瞎编的助理,后者可能更适合管钱。

毕竟,门萨会员的证书不能报销。