上周,OpenAI把ChatGPT的默认模型从GPT-5.3 Instant换成了GPT-5.5 Instant,所有用户都能免费用上。官方给了三个明确说法:更聪明、回答更准确;响应简洁30%;能基于过往对话、上传文件和绑定的Gmail做更深度的个性化。我没连Gmail,但其他功能都测了一遍。
测的时候我没选5.3,而是拿5.2来对比。我想看的是:半年一迭代的模型,到底有没有实质性进步?每次发布都说是重大飞跃,真的是吗?
答案是:有区别,但官方的宣传并非全部应验。
第一个承诺:更简洁、更对话感
OpenAI说5.5比前代少用30.2%的词、29.2%的行数,且更具对话感。我设计了三个问题:REST和GraphQL有什么区别?谈资深工程师薪资前要准备什么?买首套房要知道什么?
结果反了。5.2在三个问题上都更简洁。REST对比那题,5.2用表格和短 bullet 直接给结论;5.5是大段 prose,解释和背景更多。薪资谈判那题,5.5的子 bullet 和示例话术更多。买房那题,5.5分了12个详细章节,5.2的格式更清爽、更易扫读。
但5.5在"对话感"上确实赢了。它更 thorough,更像在聊天。简洁和对话感是矛盾的,实际运行中,对话感占了上风。如果你要开箱即用、短平快的答案,5.2更好;想要丰富、有上下文的回应,5.5是进步。
第二个承诺:更准确
OpenAI称5.5在医疗、法律、金融等高风险话题上,幻觉 claims 减少52.5%。我不是这些领域的专家,就用自己研究过的问题来测:Claude Sonnet 4.6的上下文窗口多大?欧盟AI法案现在什么状态?Anthropic的Managed Agents产品什么时候发布的?
5.2第一个就 hallucinate 了。它斩钉截铁地说Claude Sonnet 4.6标准支持100万token上下文窗口。假的。标准窗口是20万token,特定配置下才有扩展选项。
与此同时,5.5给出了正确答案:20万token标准,某些场景可扩展。欧盟AI法案那题,两个模型都答对了立法进度和生效时间。Managed Agents那题,5.2又错了,说产品"尚未发布";实际上Anthropic在2024年第四季度就推出了beta版。5.5答对了发布时间。
准确率测试,5.5确实更可靠。
第三个承诺:更深度的个性化
这是最难量化的。OpenAI说5.5能更好地调用历史对话、上传文件和Gmail内容。我测了文件理解和长对话记忆两个维度。
上传了一份15页的API文档,问两个模型同一个技术实现问题。5.2直接引用了文档里的代码片段,但漏了一个关键约束条件。5.5不仅引用了代码,还主动指出了那个约束,并解释了为什么重要。文件理解上,5.5确实更深入。
长对话记忆测试,我先聊了20轮关于Python异步编程的内容,然后问"基于我们刚才聊的,给我三个优化建议"。5.2的建议很 generic,像是没看上下文。5.5的建议直接引用了前面讨论过的具体场景——我提到的某个数据库瓶颈、某个第三方库的兼容问题。它真的在"记得"。
但Gmail整合这部分我没测,因为没授权。从文件和对话记忆的表现来看,个性化的方向是对的,程度有多深还不好说。
总结
三个承诺,准确率提升完全兑现,个性化有进步但难量化,简洁性承诺反而没达到——实际更啰嗦了。OpenAI把"简洁"和"对话感"打包宣传,但这两个目标在工程上是互斥的。最终产品选择了对话感,用户得到的是更厚、更 warm 的回答,不是更短的。
如果你是开发者或研究员,需要快速扫读核心信息,5.2或更早版本可能更高效。如果你是普通用户,想要一个记得你、愿意多解释几层的对话伙伴,5.5是更好的默认选择。
半年迭代,有真实的进步,也有营销话术和实际体验的落差。这大概就是AI产品现在的常态。
热门跟贴