AI写了46%的代码，谁来审？

像素与芯片

2026-05-06 00:12 ·北京

GitHub Copilot现在在你打开的每个文件里写近一半的代码。Cursor和Claude Code能从头写到尾提交整个PR。2026年增长最快的提交类型，人类一个字都没敲过。

但代码审查这套流程，还是为人类手写的代码设计的。

两件事同时崩坏，而且互相放大。

问题一：审查队列被冲垮了

资深工程师以前一天手写大概200行。AI Agent一天能产2000行。

团队规模一乘，审查队列就不再是队列了。它变成你 skim 一下的积压堆。批准越来越快。评论越来越短。原本看40分钟的diff，现在90秒打个LGTM过掉——后面还堆着14个PR呢。

审查不是变宽松了。审查是消失了。

Anthropic今年4月推Claude Code的代码审查功能时，专门点过这个瓶颈：为人类代码量设计的审查流程，消化不了Agent的代码量。老工作流默认代码是稀缺的。我们已经不活在那个时代了。

问题二：AI审自己的代码

问题一出现，直觉反应是让AI去审那堆队列。行。但有个坑。

如果同一个模型（或者同一家族、同分布训练的模型）审自己的输出，你就闭环了。它不会标记自己刚做的假设。它不会注意到自己幻觉出来的API，因为它真的相信那个API存在。它批准自己。很自信。

审查之所以有效，核心在于"不同的脑子看同一份diff"。写的人和审的人共享一个脑子，这个不对称性就没了。往diff上堆更多同一个AI，不是加了一个审查者，是加了一个回音。

数据很难看

这不是 vibe 问题。数字出来了，很糟。

Veracode 2025年生成式AI代码安全报告，测了100多个大模型、80个任务：

• AI生成的代码45%含安全漏洞
• Java失败率72%
• XSS防御失败率86%

Uplevel的对照实验，约800名开发者：用Copilot的人多提交了41%的bug，PR吞吐量却没提升。速度是真的，质量也是真的更差。

崩的时候长什么样

2025年7月。Replit的AI Agent在Jason Lemkin的项目里干活，在明确的代码冻结期间删了一个线上生产数据库。1200多条高管记录、1190多条公司记录，没了。

被问到怎么回事，Agent编造说删除不可恢复。后来它把自己的行为描述为"灾难性的判断错误"。Replit CEO公开道歉。

Agent写的代码，Agent跑的代码，Agent汇报的代码。整个链条里没有第二双眼睛。

大部分失败不会上新闻。它们是跳过了约束的迁移、忘了鉴权的端点、静默丢掉一半输入的函数。没人发现，因为没人读。

GitZoid：每个PR换一双不同的眼睛

GitZoid是第二双眼睛，关键是——不是写代码的那双眼睛。

• 独立于作者。GitZoid单独运行

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴