凌晨两点,我盯着屏幕上第三版被改得面目全非的产品文档——ChatGPT-4o又把我200字的说明扩成了800字的小论文。这种"过度解释"的疲惫感,可能是过去两年所有AI用户的集体记忆。
直到OpenAI把ChatGPT-5.5推给全员用户。官方内部测试说,高风险场景下幻觉率降了50%以上。考虑到前代每4次回答就有1次出错,这个幅度够狠。
更狠的是它的产品定位:不是给你更多,而是给你更少——更少重复、更少废话、更少来回拉扯。我跑了7个日常 prompt,发现这次升级的核心就藏在一个词里:精准。
第一句就卡住:三句话讲清AI智能体
我的第一个测试 prompt 很刁钻:"用恰好三句话解释AI智能体(AI agents,能自主执行任务的AI程序)的工作原理。"
旧模型的典型毛病是计数失控——你说三句,它给五句,还附带两段背景补充。5.5 的回应确实压进了三句:感知环境、规划决策、执行反馈,循环迭代。没有冗余的过渡,没有"在当今AI时代"的开场白。
这个 prompt 的设计意图是测试信息压缩能力。多数模型为了显得"有用",会不自觉地重复和膨胀。5.5 的升级点在于 tone(语气风格)控制——它似乎理解了"恰好三句"不是建议,是硬约束。
40%瘦身实验:当AI学会做减法
第二个测试更贴近日常工作:"把这段文字缩短40%,意思和语气不变。"
我贴了一段产品更新说明,原文187字。5.5 输出112字,正好是60%长度。关键不是字数准确,是它删掉了什么——"我们很高兴地宣布"这种开场白、"旨在为用户提供更优质的体验"这种正确的废话、以及所有用"此外"连接的并列句。
OpenAI 给这次升级的标签是"anti-yapping"(反啰嗦)。实际体验中,你能感觉到模型在生成每个词时的"犹豫":这个词真的必要吗?这个从句能合并吗?这种"犹豫"在旧版本里不存在,它们倾向于把置信度高的内容全部倒出来。
一个细节:当我要求"保持语气"时,5.5 对原文的正式/ casual(随意)程度判断比4o更准确。4o经常把口语化内容改得像新闻通稿,或者反过来。
新闻摘要的硬格式:5个 bullet,每个带"谁"
第三个 prompt 测试结构化输出:"总结今天最重要的科技新闻,5个 bullet point。每个必须包含谁(公司/人物)、做了什么、为什么重要。"
这个 prompt 的陷阱在于"必须"这个词。旧模型经常漏掉某个要素,或者把"为什么重要"写成"这显示了该公司在XX领域的持续投入"这种空话。5.5 的回应格式工整,而且"为什么重要"部分确实给出了具体影响——比如某笔收购对市场竞争格局的改变,而非泛泛而谈。
这里能看出"less is more"的另一层含义:不是输出短,而是信息密度高。5个 bullet 的总字数可能比旧模型的8个 bullet 还少,但有效信息更多。
代码审查的精准打击
第四个 prompt 面向开发者:"审查这段Python代码,只列出安全漏洞,不解释原理,不给出修复建议。"
旧模型的典型反应是"虽然你要求只列漏洞,但我还是解释一下SQL注入的原理"。5.5 确实只列了三行:第14行硬编码密钥、第23行未过滤用户输入、第31行异常信息泄露。没有"首先我们需要理解"的前摇,没有"建议采用参数化查询"的后置。
这个场景暴露了旧模型的"讨好"本能——它总觉得多解释几句是增值服务。5.5 的改进在于对用户意图的边界识别:当我说"只",它听懂了是排他性的。
邮件回复的尺度感
第五个测试是职场高频场景:"用两句话回复这封邮件,礼貌但不过度热情。"
我贴了一封合作方的询价邮件。5.5 的回复:"感谢联系。方案报价见附件,周三前可安排15分钟通话确认细节。"14个字,温度刚好。4o的同 prompt 输出是:"非常感谢您对我们产品的关注,我们非常重视与贵公司的合作机会。关于您提到的具体需求,我已经准备了详细的方案报价,请查收附件。如果方便的话,我们可以在本周三之前安排一次简短的通话,以便进一步沟通细节。"
热门跟贴