凌晨两点,你让ChatGPT核对一份合同条款。它给出了建议,但你突然想问:这个结论从哪来的?以前你只能猜,现在它能告诉你——"基于你三个月前上传的那份补充协议"。

一、这次更新到底换了什么

打开网易新闻 查看精彩图片

OpenAI把ChatGPT的默认模型换成了GPT-5.5 Instant。老用户熟悉的GPT-5.3 Instant正式退场,新模型同时以"chat-latest"的名义接入API。

官方给出的核心数据很具体:在高风险的医学、法律、金融提示词测试中,幻觉(即编造事实)减少了52.5%。用户此前标记过的事实错误对话,不准确声明下降了37.3%。

数学能力的变化更直观。AIME 2025(一项竞争性数学考试)的准确率从65.4%跳到81.2%;GPQA(博士级科学推理测试)从78.5%升至85.6%;CharXiv(科学图表解读基准)从75.0%涨到81.6%。

多模态和文档处理也有数字:MMMU-Pro(跨文本与图像的专家级问题测试)从69.2%提升至76.0%;OmniDocBench(复杂文档结构化数据提取测试)的错误率从14.6%降至12.5%。

OpenAI举了一个代数题的例子。用户上传了一张手写方程的照片,里面有计算错误。GPT-5.3 Instant先是认同了用户的解法,发现x=3不成立后,错误地得出"无实数解"的结论。GPT-5.5 Instant同样一开始被带偏,但随后抓住了用户重组方程时的错误,解出了修正后的二次方程。

二、正方:这确实是用户要的东西

支持这次更新的观点很直接——它解决了三个真实痛点。

第一是"废话太多"。OpenAI明确说,新模型减少了冗长和过度格式化,不再堆砌不必要的表情符号和厚重排版。「它能在提供同等信息、往往更有实用价值的同时,降低那些让回复过长的冗赘和过度格式」,官方这么描述。

第二是"上下文用不好"。GPT-5.5 Instant被设计得更擅长判断:什么时候调用过往对话、上传文件或关联的Gmail账户真的有用。搜索历史对话的速度也更快。

第三是"不知道它怎么想的"。这就是"记忆来源"(memory sources)功能——当回复引用了存储的上下文,用户现在能看到具体用了哪条信息,无论是保存的笔记还是过去的聊天。条目可以被标记为相关或无关,也能编辑或删除。

对每天把ChatGPT当工作助理的人来说,这三项改进指向同一个目标:从"一个会聊天的工具"变成"一个可审计的协作者"。

三、反方:透明是有限的,边界是模糊的

质疑的声音同样有据可查,而且来自OpenAI自己的说明。

记忆来源不会显示影响回复的所有因素。官方明确说:模型搜索的部分聊天会显示为来源,但不是全部。公司承诺"随时间推移让视图更完整",但没说时间表。

分享功能也有断点。记忆来源不会随聊天链接一起传递——你把对话发给同事,对方看不到那些引用标注。临时聊天(temporary chats)则完全不读取也不更新记忆,这意味着"无痕模式"和"记忆模式"是互斥的。

更深层的问题是:52.5%的幻觉减少,测试场景是"高风险提示词"。日常使用中,用户提的问题未必落在医学、法律、金融的范围内。这个比例能迁移到多大场景,OpenAI没给数据。

还有那个代数题的例子。两代模型都"先认同用户再纠错",区别只是GPT-5.5 Instant最终纠对了。这种"先附和再修正"的行为模式本身,对需要第一时间就准确的用户来说,可能仍是隐患。

四、我的判断:记忆透明比模型迭代更重要

GPT-5.5 Instant的基准测试提升是扎实的,但这类提升有边际递减的迹象。从65.4%到81.2%的数学准确率是飞跃,但从81.2%到90%需要的东西完全不同——可能不是架构优化,而是推理范式的改变。

真正值得关注的变量是"记忆来源"。这是OpenAI首次把"可解释性"交到普通用户手里,而不是只给研究人员看日志。它承认了一件事:用户越来越不把AI当搜索引擎用,而是当长期协作的伙伴。伙伴关系的基石不是聪明,是信任。信任的前提,是知道对方为什么这样说。

目前的实现是克制的、有保留的。但方向已经明确:下一代AI产品的竞争点,正在从"能答多准"转向"能让你多放心"。

如果你现在就用ChatGPT处理重要事务,建议做三件事:检查设置里是否开启了记忆功能;在关键对话后点开"来源"看看它引用了什么;对特别重要的判断,主动追问"这个结论基于哪些信息"。模型不会完全透明,但你可以建立自己的工作流,把不确定性降到可控范围。