Claude Code 桌面版烂爆了，Anthropic 终于把 “100% AI 编码”演砸了|代码|官方文档|编程|视图

整理| Tina

Anthropic 推出了最新的 Claude Code 桌面应用。

这本来应该是一件很顺理成章的事。CLI 当然有它的价值，但如果真要把 agentic coding 推向更大规模、更高频、更接近日常开发的使用场景，图形界面几乎是绕不过去的。尤其是在你同时处理多个任务、多个线程、多个上下文的时候，一个慢、卡、状态又不透明的命令行界面，确实很难说是“最终形态”。从这个意义上说，Claude Code 桌面版的发布，本来是一个值得期待的节点。

Anthropic 显然也对它寄予厚望，官方账号亲自下场发推，外界预热已经持续了几个月，整个发布姿态都在传递一个信号：他们终于要把 Claude Code 从一个“能用的 CLI 工具”，推进成一个更完整的正式产品了。

但真正的问题在于，这个桌面版一旦开始上手，给人的感受并不是“终于成熟了”，而是“怎么会烂成这样”。

新桌面版烂到根本没法用

这个版本上线才两天，就在社区里迅速积累起一波密集吐槽。

用户提到，iOS 下，键盘会突然卡住。有时连最核心的输入框都会频繁消失，而且几乎每次会话都会遇到，必须退出再重新进入聊天才能恢复。

Windows 版本也一样会经常卡顿和崩溃。

界面层面的问题也很明显：按钮位置不符合预期，聊天框还频繁闪烁，整体交互体验不稳定。

另一个明显问题是，一些原本最该体现效率价值的自动化功能，本身就不太稳定。比如用户想用 Routines 跑一个简单的数据库内容处理流程，结果不管怎么折腾，始终连不上数据库。

不少人吐槽 bug 多到实际上没法用。

上手一小时，直接撞出 40 多个 bug

网上很快就有人晒出了一份 bug 清单，里面列了 40 多个问题。更夸张的是，这 40 多个问题，都是 Theo 在一个小时的试用过程中集中撞出来的。

这 40 多个 bug，大致可以分为三类。一类是快捷键和标签页逻辑混乱，很多快捷键只在主标签页生效，切换标签时操作对象还会乱跳；一类是侧边栏和项目管理彼此割裂，项目列表、recent projects、线程拖拽、菜单展开方式彼此对不上，用户很难搞清楚当前到底在操作什么；还有一类更直接，属于一些基础功能本身就不成立，比如“打开文件”并不会真正打开文件，创建 fork 会连带生成 worktree 却没有任何提示...

这些问题写在列表里还只是观感不佳，放进真实任务里，很快就会变成一连串的实打实的使用障碍。

比如在一个再普通不过的场景里，让它去分析一个应用可能存在的性能问题，本来只是一个起手测试，还没涉及真正改代码，系统就已经开始不稳定。任务一启动，就先卡住了将近一分钟，随后 agent run 随机停住，线程直接冻结，界面上的图标却还挂在那里，像是在告诉你它仍然在运行。

但实际上，它已经不动了。UI 没有任何提示，也没有报错，没有结束，也没有失败。你眼前看到的是一个仿佛还活着的线程，实际面对的却是一个已经死掉的流程。

这个问题，本质上可以说是它出错的门槛太低了。不是在长链路任务里失手，也不是在高复杂度项目里崩掉，而是在一个本该最容易跑通的基础场景里，把任务执行、线程状态和界面反馈三件事一起做乱了。这种状态错乱，放在聊天产品里都不算小问题，放在开发工具里就更致命，因为开发者最依赖的，恰恰是系统状态的清晰、反馈的准确，以及操作结果的可预期。

接着往下操作，在界面这一层，又会遇到更多问题。比如分屏时，你明明在右侧窗口里操作，打开 terminal 后，它却出现在左侧分屏上；而且 terminal 一旦开出来，Tab 键会被当作输入键使用，也就没法再顺手切回其他窗口。

与此同时，terminal 右上角的关闭按钮旁边又贴着拖拽区域，结果那个 X 很难点中。也就是说，terminal 一旦开出来，输入会受影响，想关又不那么容易关掉。

还有些极其荒谬、莫名其妙的 bug：

比如语音模式下，所有输入框都会自动输入文字，而不是只输入你当前选中的那个。
“v more”下拉菜单根本不是下拉，而是往侧边展开的（但箭头是向下的）。
“打开文件”会执行大约 15 种不同的操作，但没有一种操作是真正打开文件。
可以拖拽线程，但实际上永远不能改变它们的顺序，任何情况下都不行。
可以在 diff 视图里套娃式地嵌套可折叠侧边栏。
diff 视图里的“x”按钮会关闭整个标签页，而不是只关闭 diff 视图。

他吐槽说，“我不太相信那些说自己已经用这个应用用了好几周的人，真的认真用过它。我甚至还没开始用它干活、改代码，就已经连续撞上了五六个这样的 bug，感觉自己都快疯了。”

“现在的问题是，很多人只是接受了这种质量。”即便存在大量更稳定、功能更完整、甚至开源的替代方案，用户仍然在使用 Claude Code，仅仅因为它绑定了模型入口。“他们不是在为这个界面付费，他们是为模型付费，但结果却要忍受这个界面。”

100%AI 编写，落地质量堪忧

对此，还有其他网友吐槽：“一个整天说‘软件开发已经被解决了’的公司，现在做成这样，确实挺好笑的。”不过，也因此至少说明开发者的饭碗还没丢。

毕竟 Anthropic 过去这一年的对外叙事一直很激进，核心就一句话：代码越来越多是 AI 写的，而且比例还在一路往上抬。从“80% 到 90%”，到“90%”，再到“100%”，数字一次比一次高。到了 2026 年初，“内部大多数产品基本已经是 100% AI 编码”的说法，也已经被他们反复讲了很多次。

2025 年 3 月，CEO Dario Amodei 在美国外交关系委员会上说：“再过 3 到 6 个月，AI 就会写出 90% 的代码。”
2025 年 5 月，Boris Cherny 在播客《Latent Space》中表示：“整体来看，大概 80% 到 90% 的代码是 Claude 写的。”
2025 年 9 月，Amodei 再次发声，但开始收口：“在 Anthropic，70%、80%、90% 的代码是 Claude 写的。”注意这个区间——70% 和 90% 是两回事，但媒体只抓了 90%。
2025 年 10 月，Amodei 在 Dreamforce 与 Marc Benioff 同台时说：“我之前预测过，六个月内 90% 的代码会由 AI 完成，现在已经实现了。”但被追问后，他又补了一句：“也不是所有情况都这样。”
2025 年 12 月，Boris Cherny 发推：100%。
2026 年 2 月，CPO Mike Krieger 在 Cisco AI Summit 上表示：“目前在 Anthropic，大多数产品基本可以说是 100%。”
2026 年 3 月 7 日，Boris Cherny 再次确认：“Claude Code 是 100% 由 Claude Code 写的。”

问题在于，这个“100%”一旦真正落到产品上，情况就开始变得不太对劲。Claude Code 桌面版给人的感觉，不像一个打磨完成的正式产品，更像一个边写边补、一路 vibe 出来的半成品。问题不在于它偶尔出错，而在于它在最基础的使用路径上就已经不稳，这才是最让人担心的地方。

有人算了笔账：这些工程师一天能拿到一千万到一千五百万 token，最后做出来的就是这个效果。更让人困惑的是，从什么时候开始，行业默认“能大规模生成高质量 token”就等于可以为了速度把编程质量一起扔掉？

这种不满，其实不只是针对桌面版这一次翻车。回头看，之前的代码泄露，已经提前把问题暴露得很彻底了。

其中一个反复被提到的文件：print.ts。里面只有一个函数，但这个函数足足写了 3167 行代码，包含 486 个分支判断，嵌套深度达到 12 层。有人专门把这个函数里塞的东西列了一遍：agent 的运行循环、SIGINT 中断处理、限流逻辑、AWS 认证、MCP 生命周期管理、插件加载、通过 while(true) 轮询“team lead”、模型切换、以及对中断的恢复机制……几乎所有核心逻辑，都被硬塞进了这一个函数里。而实际上，这至少应该拆成 8 到 10 个独立模块。

类似的情况，不止这一处。QueryEngine.ts 写到了 4.6 万行，Tool.ts 接近 3 万行，commands.ts 也有 2.5 万行，入口文件 main.tsx 单文件体积达到 785KB。不是某一段代码出了问题，而是整个结构本身，就已经开始失控。

在 userPromptKeywords.ts 里，这家公司用来判断用户是否“情绪崩溃”的方式，是这样一段正则：/\b(wtf|shit|fuck|horrible|awful|terrible)\b/i，也就是说，这家号称拥有最先进大语言模型的公司，在做情绪识别时，用的还是最原始的关键词匹配。这就像一家卡车公司，结果还在用马来拉零件。也有人解释，说正则更快、更便宜，不需要额外的推理调用，这在工程上是合理的。这话当然没错。但这恰恰说明这是一个“能跑就行”的工程选择。便宜优先，速度优先，先上线再说。

工程文化是没有开关的。一个能写出 12 层嵌套、把所有逻辑塞进一个函数里的团队，不会在写模型训练代码、写桌面应用的时候突然变得严谨起来。

这家公司一边卖 AI 编程工具，一边却没法用自己的 AI 编程工具做出一个质量过关的产品。那些百分比，从一开始就是用来讲故事的，而不是用来交付产品的。80、90、95、100——在源码被看见之前，没有人真正问过，“100%”到底产出了什么。

AI 只是把原本的东西放大。原本有工程纪律，就会被放大成更好的产出；原本没有纪律，就会以机器的速度放大成技术债。Anthropic 选了一条路：更快一点，让 Claude 去检查 Claude。出了问题，就再快一点。

如果在一家“构建未来”的公司里，“100% AI 编写”意味着一个包含 486 个分支、3167 行代码的函数，一个桌面应用包含无数 bug 就能上线，那这个未来需要的不是更快的工程，而是更好的工程。

如果这就是一家正在把行业往前带的公司所代表的质量标准，那这个方向本身是有问题的。

https://x.com/theo/status/2044680030706663726

声明：本文为 InfoQ 原创，不代表平台观点，未经许可禁止转载。

会议推荐

世界模型的下一个突破在哪？Agent 从 Demo 到工程化还差什么？安全与可信这道坎怎么过？研发体系不重构，还能撑多久？

AICon 上海站 2026，4 大核心专题等你来：世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构。14 个专题全面开放征稿。

诚挚邀请你登台分享实战经验。AICon 2026，期待与你同行。

今日荐文