实测GPT-5.5：OpenAI的三个承诺，只有一个完全兑现|gmail|gpt|openai|上下文|显式标识

上周，OpenAI把ChatGPT的默认模型从GPT-5.3 Instant换成了GPT-5.5 Instant，所有用户都能免费用上。官方给了三个明确说法：更聪明、回答更准确；响应简洁30%；能基于过往对话、上传文件和绑定的Gmail做更深度的个性化。我没连Gmail，但其他功能都测了一遍。

测的时候我没选5.3，而是拿5.2来对比。我想看的是：半年一迭代的模型，到底有没有实质性进步？每次发布都说是重大飞跃，真的是吗？

答案是：有区别，但官方的宣传并非全部应验。

第一个承诺：更简洁、更对话感

OpenAI说5.5比前代少用30.2%的词、29.2%的行数，且更具对话感。我设计了三个问题：REST和GraphQL有什么区别？谈资深工程师薪资前要准备什么？买首套房要知道什么？

结果反了。5.2在三个问题上都更简洁。REST对比那题，5.2用表格和短 bullet 直接给结论；5.5是大段 prose，解释和背景更多。薪资谈判那题，5.5的子 bullet 和示例话术更多。买房那题，5.5分了12个详细章节，5.2的格式更清爽、更易扫读。

但5.5在"对话感"上确实赢了。它更 thorough，更像在聊天。简洁和对话感是矛盾的，实际运行中，对话感占了上风。如果你要开箱即用、短平快的答案，5.2更好；想要丰富、有上下文的回应，5.5是进步。

第二个承诺：更准确

OpenAI称5.5在医疗、法律、金融等高风险话题上，幻觉 claims 减少52.5%。我不是这些领域的专家，就用自己研究过的问题来测：Claude Sonnet 4.6的上下文窗口多大？欧盟AI法案现在什么状态？Anthropic的Managed Agents产品什么时候发布的？

5.2第一个就 hallucinate 了。它斩钉截铁地说Claude Sonnet 4.6标准支持100万token上下文窗口。假的。标准窗口是20万token，特定配置下才有扩展选项。

与此同时，5.5给出了正确答案：20万token标准，某些场景可扩展。欧盟AI法案那题，两个模型都答对了立法进度和生效时间。Managed Agents那题，5.2又错了，说产品"尚未发布"；实际上Anthropic在2024年第四季度就推出了beta版。5.5答对了发布时间。

准确率测试，5.5确实更可靠。

第三个承诺：更深度的个性化

这是最难量化的。OpenAI说5.5能更好地调用历史对话、上传文件和Gmail内容。我测了文件理解和长对话记忆两个维度。

上传了一份15页的API文档，问两个模型同一个技术实现问题。5.2直接引用了文档里的代码片段，但漏了一个关键约束条件。5.5不仅引用了代码，还主动指出了那个约束，并解释了为什么重要。文件理解上，5.5确实更深入。

长对话记忆测试，我先聊了20轮关于Python异步编程的内容，然后问"基于我们刚才聊的，给我三个优化建议"。5.2的建议很 generic，像是没看上下文。5.5的建议直接引用了前面讨论过的具体场景——我提到的某个数据库瓶颈、某个第三方库的兼容问题。它真的在"记得"。

但Gmail整合这部分我没测，因为没授权。从文件和对话记忆的表现来看，个性化的方向是对的，程度有多深还不好说。

总结

三个承诺，准确率提升完全兑现，个性化有进步但难量化，简洁性承诺反而没达到——实际更啰嗦了。OpenAI把"简洁"和"对话感"打包宣传，但这两个目标在工程上是互斥的。最终产品选择了对话感，用户得到的是更厚、更 warm 的回答，不是更短的。

如果你是开发者或研究员，需要快速扫读核心信息，5.2或更早版本可能更高效。如果你是普通用户，想要一个记得你、愿意多解释几层的对话伙伴，5.5是更好的默认选择。

半年迭代，有真实的进步，也有营销话术和实际体验的落差。这大概就是AI产品现在的常态。

实测GPT-5.5：OpenAI的三个承诺，只有一个完全兑现