上周收到一条消息:"AI真能加速交付,还是只是炒作?"

这是过去半年我被问得最多的问题。没有抽象概念,直接上数据——来自上季度刚结束的一个MVP项目,每个数字都是实测,不是拍脑袋。

打开网易新闻 查看精彩图片

单功能交付时间:3天 → 3小时

这个对比足够直观。对一线开发者来说,"下周能上线"变成"午饭后就能看",比任何"成本降低55%"的标题都更有体感。

但单功能快不代表整体快。省下的时间会不会被更多评审吃掉?来看端到端数据:成本节省约55%,时间节省40%-50%,团队规模从4人压到2人——不是0人。

两个容易被忽视的细节:

第一,整个MVP的LLM账单在500到1500美元之间。这不是"几美分"的事,架构草图、代码生成、并行评审、部署自动化、记忆反馈循环,加起来是四位数的开销。别拿单条Prompt的成本去套完整项目。

第二,工程师还在。所谓"2人+智能体",指的是真人操作流水线、审智能体输出、修智能体埋的bug、接Twilio这类第三方、最终把代码发出去。2026年零人类发版MVP的创业公司,目前不存在。

34个智能体,8个阶段,2道人工关卡

架构图在greatcto.systems/architecture,SVG上的每个方块都能点进GitHub源码。日常跑得最勤的有这几类:

architect——在gate:plan之前输出ARCH.md、架构决策记录和成本估算;pm——把需求拆成带显式依赖的并行任务;senior-dev(多个实例)——认领任务,TDD,隔离工作区,产出diff;qa-engineer——类型检查、lint、测试、覆盖率;security-officer——OWASP、CVE扫描、密钥检测;code-reviewer——从12个角度审最终diff;devops——金丝雀、健康检查、自动回滚;l3-support——线上排障、事后复盘;continuous-learner——提取教训写入.great_cto/lessons.md。

剩下26个领域专属评审员只在触发条件满足时启动——语音AI、医疗、金融科技、机器人等。关键不是34个全开着,而是每个PR有5-7个命中,具体哪7个取决于你的仓库长什么样。

合规包:10个行业模板

做受监管行业的交付,光有智能体SDLC不够,还得让评审员知道该卡哪些关卡。于是有了pack机制:扫描仓库特征(比如package.json里有twilio就触发voice),自动挂载专家评审员、生成威胁模型、指定人工关卡。

voice-pack识别twilio、livekit、deepgram、elevenlabs,输出TCPA合规、州级录音同意、STIR/SHAKEN、PCI脱敏;clinical-pack识别clinical、PHI、SaMD、CDS,输出FDA SaMD分类、HIPAA、21 CFR Part 11。