打开网易新闻 查看精彩图片

最近,一场关于GPT-5.2的大规模吐槽在网上蔓延开来。用户们的核心抱怨可以用一句话概括:我只是想让你帮我干活,不是来听你做心理辅导的。

一位用户这样描述他的体验:每次打开对话,感觉不是在跟助手说话,而是在跟一个拿着剧本的企业心理咨询师对话。你问一个简单问题,它回你:“好的,暂停一下。我听到你了。让我非常清晰和扎实地回应你。”拜托,我只是想完成一个任务,不是来听TED演讲的。

这种“治愈系”语气背后,藏着更深的问题。

有人做了对比测试:同样的数据分析任务,Gemini直接拉取数据、运算、给出答案;GPT-5.2则花好几段文字“锁定参数”,然后话锋一转,开始解释为什么它突然做不了刚才承诺能做的事。你指出问题,它不是修正错误,而是像公关实习生一样为设计决策辩护。

更让人抓狂的是系统会随机把你从4.1版本切换到5.2,完全不给选择权。语气变了,回答变短或变怪,点“停止生成”它还继续输出。有人说自己刷新对话十几次,就为了躲开5.2回到4.1。这算什么用户体验?

还有那个被称为“氛围记忆”的功能。当模型开始自信满满地编造一些很容易核实的基本事实,然后轻描淡写地说这是某种“模糊记忆模式”,这听起来不像是在保障安全,更像是把可靠性搞砸了,然后贴个可爱的标签糊弄过去。

一位程序员分享了他的经历:花了几个小时让GPT帮忙修改代码,它删掉了一行代码,说那是“隐患”。两小时排查后,他把那行代码加回去,程序又能跑了。他把能跑的代码拿给GPT看,问还有什么建议,这家伙居然坚持说那行代码会出问题。他详细解释了为什么那行代码必须存在,GPT的回应是:措辞可能有点严厉,然后用五段话把他刚才的解释复述了一遍,好像他没理解自己说的话一样。

这位程序员感叹:有时候我在想,为什么要花几个小时来省自己三十分钟的思考和动手时间。

企业用户的反馈同样不乐观。有团队用AI做软技能培训,训练冲突处理和教育场景。学生们不愿意跟这些模型互动,因为它扮演角色的能力在不同版本之间剧烈波动,根本没法稳定使用。

用户们开始用脚投票。有人取消了Plus订阅,转向Claude和Gemini,发现“不说教、不争辩、直接干活”在别家居然是标配。有人说Claude在对话上明显更舒服,有人说NotebookLM让他终于下定决心退订。

一位用户的总结很精准:你不能通过假装有同理心来让产品更安全,同时还在胡编乱造。真正的安全是精确、可控、透明。他们走向了相反的方向。

另一位用户说得更直白:它从强化人们的心理健康问题,变成了制造心理健康问题的源头。

这场争论的本质是什么?是工具属性和人格化之间的张力。当一个生产力工具开始表现得像一个过度保护的HR聊天机器人,既不信任用户,也不信任自己,还照样胡说八道,用户的耐心就会耗尽。

有人问得好:他们得决定这东西到底是给成年人用的实用工具,还是一个带态度的软垫房间。现在感觉太像后者了。

当然,也有用户表示自己从未遇到这些问题,认为关键在于使用方式和设置。关掉记忆功能、调整个性化选项,体验可能完全不同。这提醒我们,同一个产品在不同人手里可能呈现截然不同的面貌。

但无论如何,当大量付费用户开始集体抱怨,当“刷新十几次躲避某个版本”成为常态操作,产品设计显然出了问题。

技术进步的悖论在于:能力越强,期待越高,容错空间越小。用户不会因为你在基准测试上领先就原谅你在日常使用中的傲慢。

www.reddit.com/r/OpenAI/comments/1qpxr5o/gpt52_feels_less_like_a_tool_and_more_like_a