Anthropic把测试写进5步：QA团队发现后集体算了一笔账|agent|qa|上下文|代码|工作流|测试|电子表格

一个QA工程师写完整套注册页测试要多久？4小时是保守估计，2小时是资深选手的极限操作。Anthropic最新放出的Agentic QA工作流，把这个数字压到了5分钟——从提示词到通过测试，全程零人工干预。

这不是Demo炫技。他们公开了完整的技术栈：CLAUDE.md规则引擎、技能文件（Skill Files）、Playwright浏览器工具，三层架构环环相扣。我看完第一反应是：这哪是AI写测试，这是把QA工程师的脑回路给数字化了。

第一步：读规则，比新人入职培训还快

Agent启动后的第一个动作是打开CLAUDE.md。这个文件里藏着项目的「宪法」：强制规则、工作流、需要加载的技能清单。针对注册页测试任务，Agent自动勾选了5项技能：playwright-cli、selectors、page-objects、test-standards、data-strategy。

人类新人入职，光熟悉这些规范就得半天。Agent的读取时间是——我数了一下原文的描述节奏——基本等于文件打开的瞬间。规则不再是文档，变成了可执行的配置。

这里有个细节值得玩味。CLAUDE.md里写的不是「写个好测试」，而是具体到「Page Object Model怎么分层」「locator getter和action method的区别」「组件如何组合进page object」。颗粒度细到能直接落地，这是大多数团队的文档做不到的。

第二步：探应用，DOM结构秒变结构化数据

Agent通过playwright-cli向浏览器发出指令：「访问/register，列出所有表单字段、按钮、标题和验证信息。」返回的结果是一份机器直接能读的清单：

标题："Create your account"（role: heading, level: 1）

必填字段：First name、Last name、Email address、Password、Confirm password

密码框带占位提示："At least 8 characters"

主按钮："Create account"

辅助链接："Already have an account? Sign in"

人类做同样的事需要打开DevTools、逐元素检查、复制selector、整理成文档。Agent的「观察」是结构化的、可消费的、直接能进代码的。原文里用了「Discovery result」这个词，很准确——这不是浏览，是勘探。

我注意到一个设计巧思：Agent被要求同时抓取「role、label、placeholder」等多维属性。这意味着它拿到的不是裸DOM，而是带语义标签的地图。可访问性（Accessibility）属性在这里成了机器理解的桥梁，一举两得。

第三步：抄作业，现有代码库就是最佳教材

Agent接下来做了件很「人类」的事：它去翻了pages/app/和test-data/factories/app/，看前辈们怎么写的。Page object怎么分层？Factory用什么格式？Fixture怎么注入？

这一步解决了AI写代码的千古难题——风格一致性。没有这一步，Agent生成的代码会像外包团队交的活：能跑，但和现有 codebase 格格不入。有了这一步，它写的是「我们项目的代码」，不是「AI生成的代码」。

原文在这里留了个悬念，第四步和第五步的内容被截断了。但从已披露的信息推断，完整的流程应该是：生成page object → 创建user factory → 组装fixture → 编写smoke test → 覆盖validation error的回归测试。

传统流程里，这几步环环相扣，一步错步步错。Agent的优势在于上下文不丢失：它记得CLAUDE.md的规则、记得刚才探到的DOM结构、记得现有代码的模式，三股信息流在同一个上下文窗口里碰撞。

算账时刻：4小时 vs 5分钟，省下的时间去哪了？

原文列出的「Before agentic QA」清单很扎心：Inspecting the DOM, writing locators, setting up factories, wiring fixtures, writing tests, debugging failures。6个环节，每个都是时间黑洞。

Agent的输入只有一句话："The app has a new user registration page at /register. Create a page object, a user factory, a smoke test, and regression tests for validation errors."

我算了笔账。假设一个迭代周期有20个类似的功能点需要测试覆盖，传统模式需要80小时（2人周），Agentic模式需要100分钟。省下的时间如果投入探索性测试、性能压测、安全扫描，QA团队的价值主张会完全变样。

但原文也埋了伏笔：「an agent is only as good as the instructions it follows」。这句话出现在第二篇的结尾，像一句警告。5分钟的奇迹背后，是CLAUDE.md的精心编写、技能文件的领域沉淀、Playwright工具的原子化设计。没有这些基建，Agent就是另一个会胡写的Copilot。

技术栈拆解：三层架构各自扛什么

把五篇文章串起来看，Anthropic搭的是个三层系统：

底层：项目脚手架（Project Scaffold）——给AI设计的目录结构，让Agent知道去哪找什么。

中间层：规则与技能（CLAUDE.md + Skill Files）——规则定边界，技能填内容。「用Page Object Model」是规则，「page object具体怎么写」是技能。

上层：感知与执行（Browser Tool + Agent Loop）——让Agent能看见应用、能操作浏览器、能验证结果。

这个分层很产品经理思维。每一层解决一个明确的问题，层与层之间接口清晰。换团队、换技术栈，可以只换技能文件层，骨架不动。

原文有个类比让我印象很深：「a good structure only gets you so far if the AI is just a code suggester」。代码建议器（Code Suggester）和代理（Agent）的区别，就像导航App和自动驾驶——前者告诉你怎么走，后者直接踩油门。

一个被忽略的细节：调试去哪了？

传统测试开发里，写代码占3成时间，调试占7成。Agentic QA的原文几乎没提调试环节，这是刻意省略还是真的不需要？

从披露的信息推测，调试被前置到了「探索应用」和「检查现有模式」两步。Agent在写第一行代码前，已经确认了DOM结构、确认了代码风格、确认了规则边界。人类调试是因为「不知道会出什么问题」，Agent的确定性来自「先探后写」。

但这有个前提：被测应用是稳定的。如果注册页还在频繁改版，Agent的「勘探」结果可能很快过期。原文没覆盖这个场景，可能是五篇文章的篇幅限制，也可能是留给读者的思考题。

另一个开放问题是验证策略。Agent写的测试，谁来验证它测对了？原文的标题叫「From Prompt to Passing Test」，暗示测试最终是通过状态。但「通过」不等于「有效」，这是QA领域的老生常谈。Anthropic是否设计了元测试（Test for the test），第五篇之后的内容值得期待。

技术债的角度也值得玩味。Agent生成的测试代码，未来由谁维护？如果下一个人类QA接手，他能读懂AI的写法吗？原文强调Agent会「抄现有模式」，这降低了认知门槛，但长期看，团队可能需要建立「AI生成代码」的审查规范。

回到开头那个4小时vs5分钟的对比。数字很刺激，但真正的问题或许是：当机械劳动被压缩到极限，QA工程师的专业价值该如何重新定义？