Anthropic 终于还是把 Claude Code 做成了桌面应用。

Anthropic 显然也对它寄予厚望,官方账号亲自下场发推,外界预热已经持续了几个月,整个发布姿态都在传递一个信号:他们终于要把 Claude Code 从一个“能用的 CLI 工具”,推进成一个更完整的正式产品了。

打开网易新闻 查看精彩图片

但真正的问题在于,这个桌面版一旦开始上手,给人的感受并不是“终于成熟了”,而是“怎么会烂成这样”。

新桌面版烂到根本没法用

这个版本上线才两天,就在社区里迅速积累起一波密集吐槽。

用户提到,iOS 下,键盘会突然卡住。有时连最核心的输入框都会频繁消失,而且几乎每次会话都会遇到,必须退出再重新进入聊天才能恢复。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

Windows 版本也一样会经常卡顿和崩溃。

打开网易新闻 查看精彩图片

界面层面的问题也很明显:按钮位置不符合预期,聊天框还频繁闪烁,整体交互体验不稳定。

打开网易新闻 查看精彩图片

另一个明显问题是,一些原本最该体现效率价值的自动化功能,本身就不太稳定。比如用户想用 Routines 跑一个简单的数据库内容处理流程,结果不管怎么折腾,始终连不上数据库。

打开网易新闻 查看精彩图片

不少人吐槽 bug 多到实际上没法用。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

上手一小时,直接撞出 40 多个 bug

网上很快就有人晒出了一份 bug 清单,里面列了 40 多个问题。更夸张的是,这 40 多个问题,都是 Theo 在一个小时的试用过程中集中撞出来的。

打开网易新闻 查看精彩图片

这些问题写在列表里还只是观感不佳,放进真实任务里,很快就会变成一连串的实打实的使用障碍。

比如在一个再普通不过的场景里,让它去分析一个应用可能存在的性能问题,本来只是一个起手测试,还没涉及真正改代码,系统就已经开始不稳定。任务一启动,就先卡住了将近一分钟,随后 agent run 随机停住,线程直接冻结,界面上的图标却还挂在那里,像是在告诉你它仍然在运行。

打开网易新闻 查看精彩图片

但实际上,它已经不动了。UI 没有任何提示,也没有报错,没有结束,也没有失败。你眼前看到的是一个仿佛还活着的线程,实际面对的却是一个已经死掉的流程。

这个问题,本质上可以说是它出错的门槛太低了。不是在长链路任务里失手,也不是在高复杂度项目里崩掉,而是在一个本该最容易跑通的基础场景里,把任务执行、线程状态和界面反馈三件事一起做乱了。这种状态错乱,放在聊天产品里都不算小问题,放在开发工具里就更致命,因为开发者最依赖的,恰恰是系统状态的清晰、反馈的准确,以及操作结果的可预期。

打开网易新闻 查看精彩图片

接着往下操作,在界面这一层,又会遇到更多问题。比如分屏时,你明明在右侧窗口里操作,打开 terminal 后,它却出现在左侧分屏上;而且 terminal 一旦开出来,Tab 键会被当作输入键使用,也就没法再顺手切回其他窗口。

terminal 右上角的关闭按钮旁边又贴着 拖拽区域,结果那个 X 很难点中。也就是说,terminal 一旦开出来,输入会受影响,想关又不那么容易关掉。

还有些极其荒谬、莫名其妙的 bug:

他吐槽说,“我不太相信那些说自己已经用这个应用用了好几周的人,真的认真用过它。我甚至还没开始用它干活、改代码,就已经连续撞上了五六个这样的 bug,感觉自己都快疯了。”

“现在的问题是,很多人只是接受了这种质量。”即便存在大量更稳定、功能更完整、甚至开源的替代方案,用户仍然在使用 Claude Code,仅仅因为它绑定了模型入口。“他们不是在为这个界面付费,他们是为模型付费,但结果却要忍受这个界面。”

100%AI 编写,落地质量堪忧

对此,还有其他网友吐槽:“一个整天说‘软件开发已经被解决了’的公司,现在做成这样,确实挺好笑的。”不过,也因此至少说明开发者的饭碗还没丢。

毕竟 Anthropic 过去这一年的对外叙事一直很激进,核心就一句话:代码越来越多是 AI 写的,而且比例还在一路往上抬。从“80% 到 90%”,到“90%”,再到“100%”,数字一次比一次高。到了 2026 年初,“内部大多数产品基本已经是 100% AI 编码”的说法,也已经被他们反复讲了很多次。

打开网易新闻 查看精彩图片

问题在于,这个“100%”一旦真正落到产品上,情况就开始变得不太对劲。Claude Code 桌面版给人的感觉,不像一个打磨完成的正式产品,更像一个边写边补、一路 vibe 出来的半成品。问题不在于它偶尔出错,而在于它在最基础的使用路径上就已经不稳,这才是最让人担心的地方。

有人算了笔账:这些工程师一天能拿到一千万到一千五百万 token,最后做出来的就是这个效果。更让人困惑的是,从什么时候开始,行业默认“能大规模生成高质量 token”就等于可以为了速度把编程质量一起扔掉?

这种不满,其实不只是针对桌面版这一次翻车。回头看,之前的代码泄露,已经提前把问题暴露得很彻底了。

在 userPromptKeywords.ts 里,这家公司用来判断用户是否“情绪崩溃”的方式,是这样一段正则:/b(wtf|shit|fuck|horrible|awful|terrible)b/i,也就是说,这家号称拥有最先进语言模型的公司,在做情绪识别时,用的还是最原始的关键词匹配。这就像一家卡车公司,结果还在用马来拉零件。也有人解释,说正则更快、更便宜,不需要额外的推理调用,这在工程上是合理的。这话当然没错。但这恰恰说明这是一个“能跑就行”的工程选择。便宜优先,速度优先,先上线再说。

这家公司一边卖 AI 编程工具,一边却没法用自己的 AI 编程工具做出一个质量过关的产品。那些百分比,从一开始就是用来讲故事的,而不是用来交付产品的。80、90、95、100——在源码被看见之前,没有人真正问过,“100%”到底产出了什么。

AI 只是把原本的东西放大。原本有工程纪律,就会被放大成更好的产出;原本没有纪律,就会以机器的速度放大成技术债。Anthropic 选了一条路:更快一点,让 Claude 去检查 Claude。出了问题,就再快一点。

如果在一家“构建未来”的公司里,“100% AI 编写”意味着一个包含 486 个分支、3167 行代码的函数,一个桌面应用包含无数 bug 就能上线,那这个未来需要的不是更快的工程,而是更好的工程。

如果这就是一家正在把行业往前带的公司所代表的质量标准,那这个方向本身是有问题的。