Anthropic给终端加了张嘴：我聊了一周，打字变累赘了

赛博兰博

2026-03-25 14:54 ·北京

Claude Code的语音模式上线第一周，Anthropic没公布任何使用率数据。但有个信号很实在——我测试期间，团队里三个工程师主动跑来问"那语音功能到底能不能用"。没人推广，纯靠口传。

这挺反常的。开发者工具的新功能通常要吆喝很久才有人试。语音交互在消费端早就不新鲜，Siri、Alexa、小爱同学遍地都是。但写代码的人对"说话办事"天生警惕：键盘精度是毫米级的，语音呢？

我抱着这种怀疑用了七天。结论是：它没替代键盘，但把"什么时候该开口"这个问题，回答得比预期清楚。

语音模式的打开方式很克制

语音模式的打开方式很克制

激活指令是/voice，按住空格说话，松手发送。不是常开监听，是按键对讲。这个设计选择很关键——没人希望自己的终端在Slack会议里偷听，然后试图重构你的站会发言。

支持20种语言，技术术语识别是重头戏。实测"把useAuth hook重构一下，加上token刷新逻辑"能完整识别，"给47行的fetch包个try-catch"也不会把行号听成"四十七"或者"死期七"。

但符号密集的内容直接投降。你试着念"左花括号、const result等于await fetch、左圆括号、反引号、美元符号、左花括号、API下划线URL"——念完这段，隔壁工位已经报警了。

语音的战场不是替代打字，是接管那些打字很别扭的场景。

四个真香时刻

四个真香时刻

第一个是代码审查。眼睛盯着PR的diff，手在触控板上滑动，这时候问"第23行这个正则干嘛用的"，不用腾出手敲命令。小事，但阅读流没断。

第二个是双手被占用的调试。我测过一个场景：左手拿着真机跑移动端应用，屏幕上是终端，需要查API日志。语音是唯一合理的选项。

第三个是架构脑暴。口述系统设计比打字输大段上下文更自然。"我要个队列系统，指数退避重试，失败5次进死信队列，Redis存任务"——一口气说完，打字得一分钟。

第四个是快速迭代循环。跑测试、看结果、调参数，说话比敲命令快。"再跑一遍测试""回退刚才的改动""超时改成500毫秒试试"——每句都是意图，不是语法。

场景边界比功能本身更重要

场景边界比功能本身更重要

安静办公室？算了。开放工位？绝对不行。凌晨两点家里没人，或者独立办公室，语音才成立。一旦有人能听见你大声说"把用户表删了"，社交成本瞬间压过效率收益。

一周后我形成了固定模式：语音负责意图和方向，键盘负责精度。

"新建个用户偏好接口，POST和GET，用zod校验body，加上测试"——这是语音。Claude生成代码后，改字段名、修import路径——这是键盘。

不是二选一，是切换。Claude Code的过渡做得够顺滑，语音命令后可以无缝打字，反之亦然。

有个细节值得提：语音识别的后端和Claude主模型共享，所以技术语境理解在线。不会把"死信队列"听成"死信对垒"，也不会把"指数退避"理解成数学作业。

但这也暴露了局限——它懂技术词汇，不懂你的项目黑话。我们内部有个叫"ghost-mode"的功能开关，Claude第一次听成了"ghost node"，第二次是"goat mode"。第三次我打字了。

七天后的状态是：没语音的时候会有点烦。不是离不开，是习惯了多一个选项。

这大概是工具设计的最高境界——不强迫你改变工作流，只是在你原本会卡住的地方，多铺了一块砖。

你写代码时，有没有遇到过"手在忙但脑子想指挥"的瞬间？那种时候，你会愿意对终端说话吗——还是宁可等一等，等手空出来？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴