去年Q3,我把自己70%的重复编码工作丢给了AI。单元测试自动生成、代码审查AI预扫描、文档草稿一键产出——前两周,我的代码提交频率涨了2.3倍,咖啡续杯次数却降了一半。
但第17天,一个完全没预料到的堵点开始浮现。不是AI变慢了,是我跟不上了。
第一阶段:我成了AI的"质检员"
最初的蜜月期里,AI写测试的速度让我产生了一种幻觉:我可以同时推进三个功能分支了。Gemma 4刚发布时,我用26B模型跑了一套Django视图的自动化重构脚本,原本需要半天的样板代码,47分钟搞定。
问题从第3个PR开始暴露。AI生成的测试覆盖率很漂亮,但边界条件漏了两次——一次是空字符串处理,一次是时区转换。都不是复杂bug,却让我养成了条件反射:每份AI产出必须人工扫一遍。
我的时间分配开始畸变。原本写测试占30%,现在"检查AI写的测试"占25%,加上上下文切换的认知损耗,净收益被吃掉大半。
这让我想起一个老梗:自动洗碗机省下的时间,全用来把碗从洗碗机里拿出来再检查一遍。
第二阶段:代码审查变成"找不同"游戏
我接入的代码审查AI(基于静态分析+模式匹配)确实抓到了不少风格问题。但第23天,它把一段我故意保留的兼容旧版API的代码标记为"冗余建议删除"。
如果我没仔细看直接采纳,生产环境会直接炸掉。
这种"假阴性安全感"比没AI更危险。我开始在审查环节叠加人工复核,相当于给AI配了个保姆。Claude Code的ultraplan功能上线后我第一时间测试,发现它的多步骤规划能力确实强,但每步之间的衔接仍需要我确认上下文是否丢失。
我的日历开始被切成碎片:AI跑任务→我检查→AI跑下一步→我再检查。深度工作时间从日均4.2小时跌到2.1小时,会议间隙的碎片时间反而被填满。
AI没有创造空闲,它只是把整块时间切成了更细的条。
第三阶段:那个47%的瓶颈终于显形
第30天我复盘时间日志,发现一个反直觉的数据:AI接管后,我的"有效决策时间"占比从35%升到了47%,但"决策疲劳"导致的错误率也同步上升。
瓶颈出在认知带宽的分配方式上。
以前我写代码是"手脑同步"——脑子想清楚,手敲出来,错误在编码阶段就被过滤掉。现在AI把编码环节加速10倍,我的大脑被迫在更短时间内处理更多决策点:这个AI建议要不要采纳?那个边界条件它考虑了吗?这段重构会不会破坏现有契约?
Anthropic内部有个说法:AI代理(AI Agent)的真正成本不是算力,是"人类监督开销"。我的30天实验完全验证了这点。
更麻烦的是团队维度。当我把AI生成的文档直接同步给同事,对方反馈"看不懂逻辑跳转"——AI写的句子语法正确,但缺乏我脑子里那层业务上下文。我被迫在"让AI写"和"自己重写一遍给人类看"之间反复横跳。
我现在的折中方案
实验结束后,我把AI的权限从"全自动"调成了"半自动触发"。单元测试仍由AI生成,但我只在函数复杂度超过某个阈值时才启用;代码审查AI的输出被降级为"参考建议"而非"待办清单";文档完全回归人工,AI只负责提取代码注释生成初稿。
提交频率回落到AI介入前的1.4倍,但深度工作时间恢复到了3.5小时。这个 trade-off 目前看来可持续。
Palantir CEO Alex Karp 最近有个观点:AI时代存活下来的两种人,要么有手艺(vocational training),要么有神经多样性特质(neurodivergence)。我的理解是——要么你能精准判断AI的边界,要么你的大脑本来就擅长处理非结构化决策。
30天实验教会我的,不是AI能做什么,而是我作为"人类接口"的吞吐量上限在哪。
你试过把AI深度嵌入工作流吗?那个让你不得不踩刹车的临界点,出现在百分之多少的进度上?
热门跟贴