这个开发者用1个YAML文件干掉了300行Python胶水代码|agent|developer|python|yaml|工作流|显式标识|胶水代码

去年有个数据在圈子里传疯了：一个中等规模的AI Agent项目，平均有40%的代码是在处理"谁该说话、说什么、说完交给谁"这种脏活。不是业务逻辑，不是模型调优，就是纯粹的胶水代码——定义节点、画流程图、维护状态机。

一位叫Shawn的开发者算过账：他想让Claude写代码、Gemini做安全审查，结果在LangChain里写了300多行Python，还没跑通第一个循环。他当时的原话是：「我只想写三句话：A交给B，B检查不过就回A，过了就部署。为什么非要我造一辆坦克去碾一只蚂蚁？」

三个月后，他开源了aqm。一个用YAML配置就能跑多Agent工作流的工具，零SDK、零API密钥（如果你本地已经配好了Claude或Gemini的CLI），一行命令直接执行。

YAML凭什么能省55%的token成本

Shawn的解法听起来像偷懒，但底层有套精算逻辑。传统框架把Agent当成"需要被Python代码组装的黑盒"，aqm把它降级成"配置文件里的一个条目"。

核心差异在上下文策略。aqm内置了5种token优化方案，只给Agent看它必须看的东西——不是把整个对话历史塞过去，而是按场景裁剪。实测数据是省55%到85%，取决于你的流程复杂度。

这有点像快递分拣：传统做法是每个站点把整车货卸下来再装上去，aqm做的是按目的地预分拣，中转站只碰该碰的箱子。

更隐蔽的好处是移植性。一个YAML文件丢给同事，对方有CLI环境就能跑，不用对齐Python版本、不用配虚拟环境、不用解释"这段继承自BaseNode的类是干嘛的"。配置即代码，代码即文档。

质量门：让AI自己当裁判的三种判法

多Agent系统最烦的不是搭建，是失控。A写完B审，B说改，A改了B又说还差点，循环到第7轮人类介入才发现俩Agent在互相敷衍。

aqm的解法叫Quality Gate，三种触发模式：

LLM自评：让第三个模型当裁判，问"这代码能上线吗"，答案为否就触发重试或回退，最多可设3次循环上限。

规则硬拦：正则匹配、长度检查、关键词过滤，适合有明确红线的情况。

人工兜底：关键节点弹窗等人点确认，防止AI在深夜互相甩锅。

Shawn的示例里有个典型场景：developer节点用Claude，handoffs指向reviewer；reviewer用Gemini，gate检查"Is this production-ready?"，通过就交给deployer，失败就回developer，max_retries锁死在3。整个流程的控制流肉眼可读，没有隐式的状态跳转。

他还塞了个叫Session Node的东西，专门处理"设计会议"场景——多个Agent来回讨论直到达成共识。这通常是多Agent最难写的部分，因为涉及动态轮次和终止条件判断，现在变成YAML里的一个节点类型。