凌晨三点,代码审查会议前六小时。一个从没部署过服务、没写过数据库迁移的人,正盯着终端里自动运行的测试脚本。他的全部技术栈:一张Claude Code订阅,和一套自己摸索出来的五步法。
三个月后,政府合同的演示系统通过了评审。他把这套方法开源在GitHub上,项目名叫claude-cycle-loop。
这不是一个"AI写代码有多强"的故事
作者的身份很有意思:工程背景,项目管理出身,看过很多团队交付成功也看过很多失败。但他本人"从未交付过生产级软件"——不会部署服务,不懂数据库迁移,对测试的理解"模糊到极点",对Web框架的认知停留在"好像有好几种"。
这个背景设定了一个精确的实验条件。他知道Claude能写代码,这不是问题。真正的问题是:能不能在不学习那些技术细节的前提下,指挥AI交付一个会被政府评审接受的系统?
deadline是硬的,评审者是认真的,容错空间为零。
长提示词的陷阱
他的第一反应和很多人一样:写长提示词。两段话描述功能,让Claude端到端实现。
结果崩得很快。「没要求的东西被做了」,「计划在变成代码之前没有检查点」,「中途出错时没有干净的恢复位置」。长提示词的问题不是Claude理解不了,而是人失去了控制节点。
修复方案不是优化提示词,而是在人和AI之间插入更多结构。
五步法:把混沌切成可验证的块
最终成型的循环包含五个固定步骤:
1. 验证上一轮任务没有引入回归问题
2. 规划下一轮任务,把占位符变成完整规格
3. 严格按规格实现
4. 运行构建-验证,直到两个命令都返回零
5. 关闭循环:标记完成,提交代码
三个文件支撑这个循环:项目规则文件(每轮循环开始时AI必须读取)、任务规格模板、待办任务列表。
规格格式里有三个设计细节被证明至关重要:
Do-NOT行:大多数范围蔓延来自AI做"合理的相邻工作"。明确命名哪些相邻工作不做,比单纯省略更可靠地阻止蔓延。
手动测试块:强制规格必须翻译成用户可见的价值。写不出手动测试,说明规格还没准备好。
与构建-验证命令绑定的验收标准:"两个命令返回零"是可检查的,"确保它能工作"不是。
最便宜的改动是包装一个统一命令make verify——本地运行、CI运行、AI循环的最后一步,同一套验证逻辑。
监督与自主的连续谱
开源仓库里放了三个变体,对应不同的监督强度:
claude-supervise:每步都问,人类确认后才继续。适合探索期,或任务定义尚不清晰时。
claude-cycle:自主运行单轮循环,但人类决定下一轮做什么。规格阶段可以调整,执行阶段交给AI。
claude-loop:给定任务列表后全自动运行,直到列表清空或遇到阻塞。适合规格已经稳定的后期阶段。
作者的实际工作流是在三者之间切换:早晨用supervise探索新领域,下午用cycle批量处理已知问题,晚上用loop跑回归测试和文档生成。
规格即控制
整个方法的核心洞察是反直觉的:控制AI不是靠更精确的提示词,而是靠更严格的中间产物格式。
规格文件是人和AI的契约。它必须包含:做什么、不做什么、怎么验证、用户视角的测试步骤。当规格足够清晰时,AI的执行质量变得可预测;当规格模糊时,再强的模型也会随机游走。
这解释了为什么"手动测试块"如此关键——它迫使规格撰写者从用户价值出发,而不是从实现细节出发。一个写不出用户测试的功能,大概率是伪需求或过度设计。
政府合同的特殊约束
政府评审场景放大了这个方法的价值。评审者关注的是:功能是否完整、边界是否清晰、交付物是否可验证。这些恰恰是规格驱动方法的强项。
作者没有提到但隐含的事实:政府合同通常有严格的变更控制流程。五步法中的"关闭循环-提交"节点,天然适配这种流程。每个循环产生一个可审计的决策点,比传统的敏捷迭代更符合合规要求。
对技术管理者的启示
这个案例挑战了一个常见假设:AI编程工具的主要用户是开发者提升效率。作者证明了一个反向场景——非开发者可以用结构化方法,交付传统上需要开发者技能的工作。
更深层的影响在于团队结构。如果项目管理者能直接驱动AI交付可验证的代码块,那么"需求-设计-开发-测试"的线性流程可能被压缩。不是取代开发者,而是模糊角色边界。
作者的开源仓库目前星标数不多,但 issue 区已经开始出现有趣的问题:有人尝试把五步法适配到法律文档审查,有人讨论如何嵌入安全合规检查。这些变体探索指向同一个方向——结构化人机协作的通用框架。
去他的GitHub仓库看看
github.com/NBTDx/claude-cycle-loop 里有三个可运行的脚本,和一份比这篇更技术化的README。如果你也在用Claude Code做正经项目,建议从 claude-supervise 开始跑一轮,感受"每步确认"和"全自动"之间的张力。
作者最后没说的是:这个方法能走多远?当系统复杂度超过单个人能持有的规格时,多个AI循环如何协调?这些问题的答案,可能得等下一个政府合同来验证。
热门跟贴