打开网易新闻 查看精彩图片

358个测试文件,5699条用例,全部通过。没有存根,没有延期,没有跳过场景。

这不是某家大厂的年度汇报,而是一个11人冲刺周期的UAT(用户验收测试)终验报告。更反常的是,整个平台由25个AI智能体搭建完成,人类只负责按验收键。

从28个失败文件到零缺陷

从28个失败文件到零缺陷

UAT启动当天,团队发现28个测试文件报错。其中24个是Sprint 11的端到端测试,用了自定义运行模式——原始异步函数配process.exit(),Vitest根本识别不了。

批量转换,统一格式,修复三处隐藏问题。358个文件、5699条测试全部绿灯。

这个数字的残酷之处在于:它证明AI生成的代码不需要人类兜底。

20个用户故事,约70张工单,全部交付。每个故事都附带具体验收证据,不是"看起来能跑",而是可复现的测试记录。

平台现已接入5个真实运营渠道:LinkedIn、Twitter/X、Facebook、Instagram、Medium。后台跑通RSS内容抓取、信任评分质量门、人机回环审核队列、知识图谱、品牌声线合规、引用验证、可观测仪表盘——全是生产环境,全是真实API调用

打开网易新闻 查看精彩图片

ORCHESTRATE方法论:给AI戴紧箍咒

ORCHESTRATE方法论:给AI戴紧箍咒

这套系统的核心约束叫ORCHESTRATE。名字听着像企业培训课,实际是一组结构化规则:消除歧义,把精力逼向质量。

每张工单走文档驱动TDD(测试驱动开发)。每个用户故事带验收标准。每个阶段留证据。没有"差不多行了",没有"下次再补"。

传统开发里,UAT是救火现场。这里UAT成了形式确认——问题早在前面10个冲刺被AI自己修完了。

人类团队的角色被压缩成两件事:写清楚要什么,验收时签字。

5个渠道背后的技术栈

5个渠道背后的技术栈

平台架构没有为了演示而裁剪。RSSFeed接入内容源,信任评分过滤低质信息,人机回环(HITL)队列处理边界案例,知识图谱维护实体关系,品牌声线合规检查确保输出调性一致,引用验证防止AI幻觉,可观测仪表盘实时追踪25个智能体的健康状态。

所有组件都有测试覆盖。不是单元测试那种自欺欺人的绿条,是端到端的真实数据流验证。

一个细节:24个失败文件的修复是"批量操作"完成的。意味着AI智能体可以被程序化地批量修正,不需要人类逐行Review。这在传统软件工程里几乎不可想象——你让初级工程师批量改24个文件,产出的技术债能还到明年。

QA这个职业正在经历什么

QA这个职业正在经历什么

5699条测试零失败的另一面,是QA团队的工作性质剧变。他们不再写测试用例、不再复现Bug、不再跟开发扯皮优先级。

新的工作流是:人类定义验收标准 → AI生成测试 → AI执行测试 → 人类确认结果。QA的精力从"找问题"转向"定义什么算问题"。

这个转变的代价是清晰的。团队没提具体人数,但"11人冲刺周期"完成25智能体协作的平台,暗示人力配置远低于传统同等规模项目。

文档里反复出现的词是"证据"。每个阶段要证据,每个故事要证据,每次部署要证据。这不是官僚作风,是给AI设的死线——没有证据,智能体无法推进到下一阶段。

当机器开始自我验证,人类的验收权还能保持多久?

项目官网iamhitl.com留了入口,但文档里没提下一步计划。5699次测试全部通过之后,第5700次测试该测什么——这个问题留给正在读的人。