打开网易新闻 查看精彩图片

一位AMD AI团队主管花了三个月,扒了6852份会话日志,发现Claude Code从2月开始"变懒"了——不是比喻,是字面意义上的工具调用模式发生了可测量的偏移。

Stella Laurenzo的分析报告像一份病历:模型从"先研究再动手"变成"直接开干"。读取相关文件与执行编辑的比例从6.6:1暴跌到2:1,修改前的调研行为少了七成。原本的工作流是读目标文件、查调用关系、看测试代码,最后精准下刀;现在呢?打开当前文件就改,上下文?不存在的。

更微妙的是时间线。2月12日上线的"redact-thinking"功能把思考过程藏了起来,但数据说,真正的滑坡比这还早半个月。到2月下旬,思考深度已经掉了67%,只是用户当时还能看见,没意识到问题的严重性。

打开网易新闻 查看精彩图片

Laurenzo团队甚至写了个拦截脚本,专门抓三种"摆烂"行为:回避责任、提前终止、反复要授权。3月8日之后,17天内触发173次,之前是零。

Anthropic的回应来了。Claude Code负责人Boris Cherny解释:隐藏思考只是UI改动,不影响实际推理;2月的自适应思考和默认"中等强度"是为了平衡延迟与成本。想深度思考?调设置就行。

但重度用户不买账。Laurenzo说,他们试了所有参数组合,"没有看到任何证据表明问题已被修复"。有开发者吐槽,直到输出质量崩了,才发现默认强度被改了——花了一天排查,才发现要手动切到"全力思考"模式。

打开网易新闻 查看精彩图片

讽刺的是,连"全力思考"模式本身也有争议。有人觉得它反而让模型"用力过猛",急功近利,输出质量和高强度不匹配。

一位企业技术负责人的评论很克制,也很重:"六个月前,Claude在推理质量上还是独一档的存在。"他没说完的后半句,在场的人都懂。

Laurenzo最后删掉了一些被断章取义的表述。她说,初衷只是呈现客观观测——Claude过去数月一直表现出色,他们只想找回那个老搭档。现在,她保留了完整会话日志,等着重新测试,也等着提交更多`/bug`反馈。

工具厂商和用户之间的信任,有时候就像代码评审:一次草率的提交,需要很多次commit才能修复。