花250美元/月，让AI承包运维第一线？|slack|工作流|第一线|编程|自动化|运维

如果你也带着一个小团队管基础设施，可能经历过这种别扭：工程部门的人数蹭蹭涨，但运维编制纹丝不动。尤其是“氛围编程”盛行之后，产品经理们都想拥有自己的迷你应用，我们工作室的研发团队在几个月里几乎膨胀了1.5倍。雪上加霜的是，某些区域开始频繁冒出可用性问题，连带着Slack支持频道里的消息狂涌而来，以至于工程师一整天有不少时间都耗在初步诊判这些消息上。最烦人的是什么？很多请求根本不该归运维管，但每一条都得至少跑一圈浅层诊断才能搞清楚。

于是，把第一线甩给AI代理的想法就这么冒出来了。那时我们已用自动化手段处理告警驱动的故障分析，效果不错，把同样的模式延伸到人工聊天请求，就是顺理成章的下一步。这篇文章是系列的上半部分，我会拆解几件事：先给过去一年的请求流量做了分类，挑出值得自动化的类别；然后在n8n里搭了一个分类器，利用MCP接入了Slack；接着把CI/CD事故助手做成了第一个跑通生产的分支；还加上了附件解析功能，不管是报错截图还是日志文件都能嚼得动；最后给工作流本身配上了正经的错误上报机制。

动手之前，得先摸清家里有什么垃圾要分类。我把过去一整年Slack频道里的请求记录倒出来，归进几个桶：基础设施变更，比如给现有基建设施打补丁、加一些标准化资源；全新安装，也就是部署以前没搞过的系统或集成；故障类，当前基础设施里哪块突然趴窝了；CI/CD类，构建失败、测试崩了、部署卡壳；问询类，关于基础设施的通用疑问；公告类，像计划性维护这样的纯通知信息；最后剩下一个“其他”兜底。一眼扫过去，第3到第5类是大头，也是自动化最该先啃的骨头。前两类需要审批，基本离不了工程师全程盯着，没有自动化的必要；公告类根本不需要代理插手，能准确识别、不把待命人员呼起来就行。

但在搭建任何处理分支之前，我们得先可靠地分辨一条新请求到底掉进哪个桶——这个分类器本身就是一切的前提。分类器建在n8n里，通过MCP串联Slack，把识别出来的请求顺着不同分支分发。第一条进入生产的分支就盯住了CI/CD事故：一旦流水线变红，代理自动介入诊断，把关键日志、失败步骤甚至相关报错截图都拎出来，省去人工逐条翻找的苦工。同时我要求工作流本身要有自省能力，出了岔子得立刻报出来，而不是闷声烂在管道里。

目前呈现的还是一个“有点粗糙”的版本：它能卸掉大量重复性的分流和初诊杂活，但在边界模糊的请求上偶尔还是会犯愣，需要人工兜底。下篇会接着聊剩下的几个分支——基础设施事故助手、常问问答式的知识助手，以及处理基础设施变更请求的流程。所有工作流和系统提示已单独发布，文末有链接。