打开网易新闻 查看精彩图片

整理| Tina

Anthropic 推出了最新的 Claude Code 桌面应用。

这本来应该是一件很顺理成章的事。CLI 当然有它的价值,但如果真要把 agentic coding 推向更大规模、更高频、更接近日常开发的使用场景,图形界面几乎是绕不过去的。尤其是在你同时处理多个任务、多个线程、多个上下文的时候,一个慢、卡、状态又不透明的命令行界面,确实很难说是“最终形态”。从这个意义上说,Claude Code 桌面版的发布,本来是一个值得期待的节点。

Anthropic 显然也对它寄予厚望,官方账号亲自下场发推,外界预热已经持续了几个月,整个发布姿态都在传递一个信号:他们终于要把 Claude Code 从一个“能用的 CLI 工具”,推进成一个更完整的正式产品了。

打开网易新闻 查看精彩图片

但真正的问题在于,这个桌面版一旦开始上手,给人的感受并不是“终于成熟了”,而是“怎么会烂成这样”。

新桌面版烂到根本没法用

这个版本上线才两天,就在社区里迅速积累起一波密集吐槽。

用户提到,iOS 下,键盘会突然卡住。有时连最核心的输入框都会频繁消失,而且几乎每次会话都会遇到,必须退出再重新进入聊天才能恢复。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

Windows 版本也一样会经常卡顿和崩溃。

打开网易新闻 查看精彩图片

界面层面的问题也很明显:按钮位置不符合预期,聊天框还频繁闪烁,整体交互体验不稳定。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

另一个明显问题是,一些原本最该体现效率价值的自动化功能,本身就不太稳定。比如用户想用 Routines 跑一个简单的数据库内容处理流程,结果不管怎么折腾,始终连不上数据库。

打开网易新闻 查看精彩图片

不少人吐槽 bug 多到实际上没法用。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

上手一小时,直接撞出 40 多个 bug

网上很快就有人晒出了一份 bug 清单,里面列了 40 多个问题。更夸张的是,这 40 多个问题,都是 Theo 在一个小时的试用过程中集中撞出来的。

打开网易新闻 查看精彩图片

这 40 多个 bug,大致可以分为三类。一类是快捷键和标签页逻辑混乱,很多快捷键只在主标签页生效,切换标签时操作对象还会乱跳;一类是侧边栏和项目管理彼此割裂,项目列表、recent projects、线程拖拽、菜单展开方式彼此对不上,用户很难搞清楚当前到底在操作什么;还有一类更直接,属于一些基础功能本身就不成立,比如“打开文件”并不会真正打开文件,创建 fork 会连带生成 worktree 却没有任何提示...

这些问题写在列表里还只是观感不佳,放进真实任务里,很快就会变成一连串的实打实的使用障碍。

比如在一个再普通不过的场景里,让它去分析一个应用可能存在的性能问题,本来只是一个起手测试,还没涉及真正改代码,系统就已经开始不稳定。任务一启动,就先卡住了将近一分钟,随后 agent run 随机停住,线程直接冻结,界面上的图标却还挂在那里,像是在告诉你它仍然在运行。

打开网易新闻 查看精彩图片

但实际上,它已经不动了。UI 没有任何提示,也没有报错,没有结束,也没有失败。你眼前看到的是一个仿佛还活着的线程,实际面对的却是一个已经死掉的流程。

这个问题,本质上可以说是它出错的门槛太低了。不是在长链路任务里失手,也不是在高复杂度项目里崩掉,而是在一个本该最容易跑通的基础场景里,把任务执行、线程状态和界面反馈三件事一起做乱了。这种状态错乱,放在聊天产品里都不算小问题,放在开发工具里就更致命,因为开发者最依赖的,恰恰是系统状态的清晰、反馈的准确,以及操作结果的可预期。

打开网易新闻 查看精彩图片

接着往下操作,在界面这一层,又会遇到更多问题。比如分屏时,你明明在右侧窗口里操作,打开 terminal 后,它却出现在左侧分屏上;而且 terminal 一旦开出来,Tab 键会被当作输入键使用,也就没法再顺手切回其他窗口。

与此同时,terminal 右上角的关闭按钮旁边又贴着 拖拽区域,结果那个 X 很难点中。也就是说,terminal 一旦开出来,输入会受影响,想关又不那么容易关掉。

还有些极其荒谬、莫名其妙的 bug:

  • 比如语音模式下,所有输入框都会自动输入文字,而不是只输入你当前选中的那个。

  • “v more”下拉菜单根本不是下拉,而是往侧边展开的(但箭头是向下的)。

  • “打开文件”会执行大约 15 种不同的操作,但没有一种操作是真正打开文件。

  • 可以拖拽线程,但实际上永远不能改变它们的顺序,任何情况下都不行。

  • 可以在 diff 视图里套娃式地嵌套可折叠侧边栏。

  • diff 视图里的“x”按钮会关闭整个标签页,而不是只关闭 diff 视图。

他吐槽说,“我不太相信那些说自己已经用这个应用用了好几周的人,真的认真用过它。我甚至还没开始用它干活、改代码,就已经连续撞上了五六个这样的 bug,感觉自己都快疯了。”

“现在的问题是,很多人只是接受了这种质量。”即便存在大量更稳定、功能更完整、甚至开源的替代方案,用户仍然在使用 Claude Code,仅仅因为它绑定了模型入口。“他们不是在为这个界面付费,他们是为模型付费,但结果却要忍受这个界面。”

100%AI 编写,落地质量堪忧

对此,还有其他网友吐槽:“一个整天说‘软件开发已经被解决了’的公司,现在做成这样,确实挺好笑的。”不过,也因此至少说明开发者的饭碗还没丢。

毕竟 Anthropic 过去这一年的对外叙事一直很激进,核心就一句话:代码越来越多是 AI 写的,而且比例还在一路往上抬。从“80% 到 90%”,到“90%”,再到“100%”,数字一次比一次高。到了 2026 年初,“内部大多数产品基本已经是 100% AI 编码”的说法,也已经被他们反复讲了很多次。

  • 2025 年 3 月,CEO Dario Amodei 在美国外交关系委员会上说:“再过 3 到 6 个月,AI 就会写出 90% 的代码。”

  • 2025 年 5 月,Boris Cherny 在播客《Latent Space》中表示:“整体来看,大概 80% 到 90% 的代码是 Claude 写的。”

  • 2025 年 9 月,Amodei 再次发声,但开始收口:“在 Anthropic,70%、80%、90% 的代码是 Claude 写的。”注意这个区间——70% 和 90% 是两回事,但媒体只抓了 90%。

  • 2025 年 10 月,Amodei 在 Dreamforce 与 Marc Benioff 同台时说:“我之前预测过,六个月内 90% 的代码会由 AI 完成,现在已经实现了。”但被追问后,他又补了一句:“也不是所有情况都这样。”

  • 2025 年 12 月,Boris Cherny 发推:100%。

  • 2026 年 2 月,CPO Mike Krieger 在 Cisco AI Summit 上表示:“目前在 Anthropic,大多数产品基本可以说是 100%。”

  • 2026 年 3 月 7 日,Boris Cherny 再次确认:“Claude Code 是 100% 由 Claude Code 写的。”

打开网易新闻 查看精彩图片

问题在于,这个“100%”一旦真正落到产品上,情况就开始变得不太对劲。Claude Code 桌面版给人的感觉,不像一个打磨完成的正式产品,更像一个边写边补、一路 vibe 出来的半成品。问题不在于它偶尔出错,而在于它在最基础的使用路径上就已经不稳,这才是最让人担心的地方。

有人算了笔账:这些工程师一天能拿到一千万到一千五百万 token,最后做出来的就是这个效果。更让人困惑的是,从什么时候开始,行业默认“能大规模生成高质量 token”就等于可以为了速度把编程质量一起扔掉?

这种不满,其实不只是针对桌面版这一次翻车。回头看,之前的代码泄露,已经提前把问题暴露得很彻底了。

其中一个反复被提到的文件:print.ts。里面只有一个函数,但这个函数足足写了 3167 行代码,包含 486 个分支判断,嵌套深度达到 12 层。有人专门把这个函数里塞的东西列了一遍:agent 的运行循环、SIGINT 中断处理、限流逻辑、AWS 认证、MCP 生命周期管理、插件加载、通过 while(true) 轮询“team lead”、模型切换、以及对中断的恢复机制……几乎所有核心逻辑,都被硬塞进了这一个函数里。而实际上,这至少应该拆成 8 到 10 个独立模块。

类似的情况,不止这一处。QueryEngine.ts 写到了 4.6 万行,Tool.ts 接近 3 万行,commands.ts 也有 2.5 万行,入口文件 main.tsx 单文件体积达到 785KB。不是某一段代码出了问题,而是整个结构本身,就已经开始失控。

在 userPromptKeywords.ts 里,这家公司用来判断用户是否“情绪崩溃”的方式,是这样一段正则:/\b(wtf|shit|fuck|horrible|awful|terrible)\b/i,也就是说,这家号称拥有最先进大语言模型的公司,在做情绪识别时,用的还是最原始的关键词匹配。这就像一家卡车公司,结果还在用马来拉零件。也有人解释,说正则更快、更便宜,不需要额外的推理调用,这在工程上是合理的。这话当然没错。但这恰恰说明这是一个“能跑就行”的工程选择。便宜优先,速度优先,先上线再说。

工程文化是没有开关的。一个能写出 12 层嵌套、把所有逻辑塞进一个函数里的团队,不会在写模型训练代码、写桌面应用的时候突然变得严谨起来。

这家公司一边卖 AI 编程工具,一边却没法用自己的 AI 编程工具做出一个质量过关的产品。那些百分比,从一开始就是用来讲故事的,而不是用来交付产品的。80、90、95、100——在源码被看见之前,没有人真正问过,“100%”到底产出了什么。

AI 只是把原本的东西放大。原本有工程纪律,就会被放大成更好的产出;原本没有纪律,就会以机器的速度放大成技术债。Anthropic 选了一条路:更快一点,让 Claude 去检查 Claude。出了问题,就再快一点。

如果在一家“构建未来”的公司里,“100% AI 编写”意味着一个包含 486 个分支、3167 行代码的函数,一个桌面应用包含无数 bug 就能上线,那这个未来需要的不是更快的工程,而是更好的工程。

如果这就是一家正在把行业往前带的公司所代表的质量标准,那这个方向本身是有问题的。

https://x.com/theo/status/2044680030706663726

声明:本文为 InfoQ 原创,不代表平台观点,未经许可禁止转载。

会议推荐

世界模型的下一个突破在哪?Agent 从 Demo 到工程化还差什么?安全与可信这道坎怎么过?研发体系不重构,还能撑多久?

AICon 上海站 2026,4 大核心专题等你来:世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构。14 个专题全面开放征稿。

诚挚邀请你登台分享实战经验。AICon 2026,期待与你同行。

今日荐文

你也「在看」吗?