一个QA工程师写完整套注册页测试要多久?4小时是保守估计,2小时是资深选手的极限操作。Anthropic最新放出的Agentic QA工作流,把这个数字压到了5分钟——从提示词到通过测试,全程零人工干预。
这不是Demo炫技。他们公开了完整的技术栈:CLAUDE.md规则引擎、技能文件(Skill Files)、Playwright浏览器工具,三层架构环环相扣。我看完第一反应是:这哪是AI写测试,这是把QA工程师的脑回路给数字化了。
第一步:读规则,比新人入职培训还快
Agent启动后的第一个动作是打开CLAUDE.md。这个文件里藏着项目的「宪法」:强制规则、工作流、需要加载的技能清单。针对注册页测试任务,Agent自动勾选了5项技能:playwright-cli、selectors、page-objects、test-standards、data-strategy。
人类新人入职,光熟悉这些规范就得半天。Agent的读取时间是——我数了一下原文的描述节奏——基本等于文件打开的瞬间。规则不再是文档,变成了可执行的配置。
这里有个细节值得玩味。CLAUDE.md里写的不是「写个好测试」,而是具体到「Page Object Model怎么分层」「locator getter和action method的区别」「组件如何组合进page object」。颗粒度细到能直接落地,这是大多数团队的文档做不到的。
第二步:探应用,DOM结构秒变结构化数据
Agent通过playwright-cli向浏览器发出指令:「访问/register,列出所有表单字段、按钮、标题和验证信息。」返回的结果是一份机器直接能读的清单:
标题:"Create your account"(role: heading, level: 1)
必填字段:First name、Last name、Email address、Password、Confirm password
密码框带占位提示:"At least 8 characters"
主按钮:"Create account"
辅助链接:"Already have an account? Sign in"
人类做同样的事需要打开DevTools、逐元素检查、复制selector、整理成文档。Agent的「观察」是结构化的、可消费的、直接能进代码的。原文里用了「Discovery result」这个词,很准确——这不是浏览,是勘探。
我注意到一个设计巧思:Agent被要求同时抓取「role、label、placeholder」等多维属性。这意味着它拿到的不是裸DOM,而是带语义标签的地图。可访问性(Accessibility)属性在这里成了机器理解的桥梁,一举两得。
第三步:抄作业,现有代码库就是最佳教材
Agent接下来做了件很「人类」的事:它去翻了pages/app/和test-data/factories/app/,看前辈们怎么写的。Page object怎么分层?Factory用什么格式?Fixture怎么注入?
这一步解决了AI写代码的千古难题——风格一致性。没有这一步,Agent生成的代码会像外包团队交的活:能跑,但和现有 codebase 格格不入。有了这一步,它写的是「我们项目的代码」,不是「AI生成的代码」。
原文在这里留了个悬念,第四步和第五步的内容被截断了。但从已披露的信息推断,完整的流程应该是:生成page object → 创建user factory → 组装fixture → 编写smoke test → 覆盖validation error的回归测试。
传统流程里,这几步环环相扣,一步错步步错。Agent的优势在于上下文不丢失:它记得CLAUDE.md的规则、记得刚才探到的DOM结构、记得现有代码的模式,三股信息流在同一个上下文窗口里碰撞。
算账时刻:4小时 vs 5分钟,省下的时间去哪了?
原文列出的「Before agentic QA」清单很扎心:Inspecting the DOM, writing locators, setting up factories, wiring fixtures, writing tests, debugging failures。6个环节,每个都是时间黑洞。
Agent的输入只有一句话:"The app has a new user registration page at /register. Create a page object, a user factory, a smoke test, and regression tests for validation errors."
我算了笔账。假设一个迭代周期有20个类似的功能点需要测试覆盖,传统模式需要80小时(2人周),Agentic模式需要100分钟。省下的时间如果投入探索性测试、性能压测、安全扫描,QA团队的价值主张会完全变样。
但原文也埋了伏笔:「an agent is only as good as the instructions it follows」。这句话出现在第二篇的结尾,像一句警告。5分钟的奇迹背后,是CLAUDE.md的精心编写、技能文件的领域沉淀、Playwright工具的原子化设计。没有这些基建,Agent就是另一个会胡写的Copilot。
技术栈拆解:三层架构各自扛什么
把五篇文章串起来看,Anthropic搭的是个三层系统:
底层:项目脚手架(Project Scaffold)——给AI设计的目录结构,让Agent知道去哪找什么。
中间层:规则与技能(CLAUDE.md + Skill Files)——规则定边界,技能填内容。「用Page Object Model」是规则,「page object具体怎么写」是技能。
上层:感知与执行(Browser Tool + Agent Loop)——让Agent能看见应用、能操作浏览器、能验证结果。
这个分层很产品经理思维。每一层解决一个明确的问题,层与层之间接口清晰。换团队、换技术栈,可以只换技能文件层,骨架不动。
原文有个类比让我印象很深:「a good structure only gets you so far if the AI is just a code suggester」。代码建议器(Code Suggester)和代理(Agent)的区别,就像导航App和自动驾驶——前者告诉你怎么走,后者直接踩油门。
一个被忽略的细节:调试去哪了?
传统测试开发里,写代码占3成时间,调试占7成。Agentic QA的原文几乎没提调试环节,这是刻意省略还是真的不需要?
从披露的信息推测,调试被前置到了「探索应用」和「检查现有模式」两步。Agent在写第一行代码前,已经确认了DOM结构、确认了代码风格、确认了规则边界。人类调试是因为「不知道会出什么问题」,Agent的确定性来自「先探后写」。
但这有个前提:被测应用是稳定的。如果注册页还在频繁改版,Agent的「勘探」结果可能很快过期。原文没覆盖这个场景,可能是五篇文章的篇幅限制,也可能是留给读者的思考题。
另一个开放问题是验证策略。Agent写的测试,谁来验证它测对了?原文的标题叫「From Prompt to Passing Test」,暗示测试最终是通过状态。但「通过」不等于「有效」,这是QA领域的老生常谈。Anthropic是否设计了元测试(Test for the test),第五篇之后的内容值得期待。
技术债的角度也值得玩味。Agent生成的测试代码,未来由谁维护?如果下一个人类QA接手,他能读懂AI的写法吗?原文强调Agent会「抄现有模式」,这降低了认知门槛,但长期看,团队可能需要建立「AI生成代码」的审查规范。
回到开头那个4小时vs5分钟的对比。数字很刺激,但真正的问题或许是:当机械劳动被压缩到极限,QA工程师的专业价值该如何重新定义?
热门跟贴