我用AI接管了30天代码工作流，瓶颈居然出现在第47%进度处

我是一个养虾人

2026-04-12 10:30 ·北京

去年Q3，我把自己70%的重复编码工作丢给了AI。单元测试自动生成、代码审查AI预扫描、文档草稿一键产出——前两周，我的代码提交频率涨了2.3倍，咖啡续杯次数却降了一半。

但第17天，一个完全没预料到的堵点开始浮现。不是AI变慢了，是我跟不上了。

第一阶段：我成了AI的"质检员"

第一阶段：我成了AI的"质检员"

最初的蜜月期里，AI写测试的速度让我产生了一种幻觉：我可以同时推进三个功能分支了。Gemma 4刚发布时，我用26B模型跑了一套Django视图的自动化重构脚本，原本需要半天的样板代码，47分钟搞定。

问题从第3个PR开始暴露。AI生成的测试覆盖率很漂亮，但边界条件漏了两次——一次是空字符串处理，一次是时区转换。都不是复杂bug，却让我养成了条件反射：每份AI产出必须人工扫一遍。

我的时间分配开始畸变。原本写测试占30%，现在"检查AI写的测试"占25%，加上上下文切换的认知损耗，净收益被吃掉大半。

这让我想起一个老梗：自动洗碗机省下的时间，全用来把碗从洗碗机里拿出来再检查一遍。

第二阶段：代码审查变成"找不同"游戏

第二阶段：代码审查变成"找不同"游戏

我接入的代码审查AI（基于静态分析+模式匹配）确实抓到了不少风格问题。但第23天，它把一段我故意保留的兼容旧版API的代码标记为"冗余建议删除"。

如果我没仔细看直接采纳，生产环境会直接炸掉。

这种"假阴性安全感"比没AI更危险。我开始在审查环节叠加人工复核，相当于给AI配了个保姆。Claude Code的ultraplan功能上线后我第一时间测试，发现它的多步骤规划能力确实强，但每步之间的衔接仍需要我确认上下文是否丢失。

我的日历开始被切成碎片：AI跑任务→我检查→AI跑下一步→我再检查。深度工作时间从日均4.2小时跌到2.1小时，会议间隙的碎片时间反而被填满。

AI没有创造空闲，它只是把整块时间切成了更细的条。

第三阶段：那个47%的瓶颈终于显形

第三阶段：那个47%的瓶颈终于显形

第30天我复盘时间日志，发现一个反直觉的数据：AI接管后，我的"有效决策时间"占比从35%升到了47%，但"决策疲劳"导致的错误率也同步上升。

瓶颈出在认知带宽的分配方式上。

以前我写代码是"手脑同步"——脑子想清楚，手敲出来，错误在编码阶段就被过滤掉。现在AI把编码环节加速10倍，我的大脑被迫在更短时间内处理更多决策点：这个AI建议要不要采纳？那个边界条件它考虑了吗？这段重构会不会破坏现有契约？

Anthropic内部有个说法：AI代理（AI Agent）的真正成本不是算力，是"人类监督开销"。我的30天实验完全验证了这点。

更麻烦的是团队维度。当我把AI生成的文档直接同步给同事，对方反馈"看不懂逻辑跳转"——AI写的句子语法正确，但缺乏我脑子里那层业务上下文。我被迫在"让AI写"和"自己重写一遍给人类看"之间反复横跳。

我现在的折中方案

我现在的折中方案

实验结束后，我把AI的权限从"全自动"调成了"半自动触发"。单元测试仍由AI生成，但我只在函数复杂度超过某个阈值时才启用；代码审查AI的输出被降级为"参考建议"而非"待办清单"；文档完全回归人工，AI只负责提取代码注释生成初稿。

提交频率回落到AI介入前的1.4倍，但深度工作时间恢复到了3.5小时。这个 trade-off 目前看来可持续。

Palantir CEO Alex Karp 最近有个观点：AI时代存活下来的两种人，要么有手艺（vocational training），要么有神经多样性特质（neurodivergence）。我的理解是——要么你能精准判断AI的边界，要么你的大脑本来就擅长处理非结构化决策。

30天实验教会我的，不是AI能做什么，而是我作为"人类接口"的吞吐量上限在哪。

你试过把AI深度嵌入工作流吗？那个让你不得不踩刹车的临界点，出现在百分之多少的进度上？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴