绿测试是证据，不是批准：AI协作的隐形陷阱

我是一个粉刷匠2

2026-05-11 12:12 ·北京

你的AI编程助手通过了所有测试，代码就能上线吗？

越来越多的团队开始用多个AI编程代理协作：一个写代码，一个做审查，人类负责人最终拍板。听起来很合理，但如果没有共享流程，这套体系很快就会变得不可靠。

执行代理可能自己测试自己的作品。审查代理可能只检查测试是否通过。负责人收到的可能是一份信心满满的摘要，却缺乏持久证据。这就是ACS试图解决的问题。

ACS全称Agent Collaboration SOP（代理协作标准作业程序），是一套与供应商无关、以文件为先的多代理工程协作工作流。其核心原则只有一句话：绿测试是证据，不是批准。

测试通过固然重要，但它不能证明需求范围被遵守、界面被肉眼检查过、文档与实际文件一致、敏感信息已被脱敏，或者变更可以安全发布。

为什么绿测试不够

测试回答的是具体问题。批准回答的是更宽泛的问题：这个变更应该推进吗？

绿测试不能自动证明以下任何一点：请求的范围被尊重；用户界面被打开并目视检查；需要视觉证据的地方存在截图；文档和交接说明与实际文件匹配；实现没有引入架构漂移；公开输出已被脱敏；变更可以安全发布、合并上游或公开分享。

如果人类同事提交的变更没有清晰的交接、没有审查证据、没有范围说明、没有发布风险评估，大多数工程团队不会把"测试通过了"当作充分条件。AI代理的工作不应该因为摘要听起来自信就获得更低的标准。

三个角色的分离

ACS将三个角色明确分开：

负责人（Owner）：人类决策者，负责目标、范围、发布决策、上游PR边界和业务约束。

执行代理（Executor Agent）：负责实现、自测、证据收集和交接。

审查代理（Reviewer Agent）：负责独立审查范围、架构、测试、截图、证据、脱敏和发布风险。

关键规则很简单：执行者不批准自己。执行代理可以且应该运行测试，可以且应该总结变更内容，可以且应该收集证据。但批准需要独立检查和人类决策。

从聊天记录到持久文件

聊天在工作进行时很有用，但作为长期工程记录却很薄弱。聊天线程可能被压缩，可能丢失上下文，可能与它们讨论的确切仓库状态分离，后来的代理可能难以检查。

ACS优先采用以文件为先的交接方式。典型的ACS产物包括：执行者交接文档、审查者报告、证据台账、负责人共识报告、脱敏案例研究、反模式审查。

这使得工作流在经历上下文压缩、模型更换、机器更换或交接给另一个代理后更容易恢复。

案例研究与反模式

ACS维护两个长期记忆区域：

case-studies/ 目录记录脱敏的成功案例，供未来代理参考。anti-patterns/ 目录记录已知的失败模式，防止重复犯错。

这种结构让团队的经验教训真正成为组织资产，而不是散落在各个聊天窗口里。

当AI代理开始像团队成员一样工作时，它们也应该遵守同样的工程纪律。测试通过只是起点，不是终点。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴