去年跑完4个准实验方法后,我算了笔账——从数据清洗到给老板交PPT,80%时间耗在搭脚手架,真正琢磨"这因果链成不成立"的不到两成。这比例像极了我司某些会议。

正好Claude Agents和Skills上线,我动了心思:能不能把这套流程塞给AI,让人专注判断而非搬砖?

第一版Agent:跑得通,但不敢用

第一版Agent:跑得通,但不敢用

架构比预想中顺滑。输入营销数据,Agent自动走完数据检查→方法匹配→模型拟合→诊断报告四步,输出带可视化结论的文档。全流程无人值守,20分钟出结果。

但第一个交付物就让我皱眉头。模型诊断环节,残差图(residual plot,即预测值与实际值偏差的分布图)呈现明显的异方差性,Agent在报告里写"模型假设基本满足"。

我盯着屏幕愣了几秒。这要是直接交给业务方,下个月预算调整决策就建立在沙堆上了。

问题不在代码。Claude生成的Python脚本语法干净,调包也规范。真正的卡点是我作为领域知识持有者,必须介入判断"什么情况下可以忽略异方差"——而这恰恰是最难被自动化的部分。

第二版:把"判断权"拆出来给人

第二版:把"判断权"拆出来给人

我重新设计了人机分工。Agent负责可标准化的脚手架:数据类型检查、方法候选列表生成、基础诊断图表绘制。每一步输出后强制暂停,等待人类输入。

关键改动是新增了一个"置信度评分"模块。Agent不再直接说"这模型能用",而是输出一组结构化指标:样本量是否满足方法要求、混淆变量控制程度、残差模式偏离度、与历史A/B测试结果的偏差范围。

这些指标本身不能替你做决策,但把"需要人脑处理的信息密度"压缩到了一张A4纸能看完的量级。

测试了12组历史营销数据,其中3组Agent标记为"高置信度",与后续实际A/B测试结果偏差在8%以内;4组标记"需人工复核",复核后发现2组存在季节性混杂变量未处理;剩下5组直接打回,建议补充数据或换方法。

这个分布让我意外——我以为AI会倾向于过度自信,结果它的保守程度甚至超过部分初级分析师。

可复用工作流:比单次结果更有价值

可复用工作流:比单次结果更有价值

真正省下来的时间,是"下次再用"的时候。我把这套交互流程封装成Skill,包含三个固定组件:

数据契约层:强制要求输入字段的业务定义,拒绝任何"这列应该是销售额吧"的猜测。Agent遇到字段歧义直接报错,而不是按概率最大的猜。

方法选择决策树:根据数据特征(时间序列长度、是否有对照组、干预点清晰度)匹配方法,每个分支附带"为什么选这个"的简短说明。

人机检查点:三个强制暂停位——数据质量确认、方法选择确认、最终结论确认。每个检查点提供"继续/修改/终止"三选项,修改时可自然语言指令调整。

封装后的Skill在新项目上冷启动时间从3天降到4小时。大部分节省来自不用重新写数据清洗逻辑,以及方法选择的文档化——以前每个项目都要翻笔记回忆"上次那个优惠券分析用的什么方法来着"。

信任的建立是双向的

信任的建立是双向的

跑完第6个项目后,我发现自己的使用模式变了。早期我会逐行检查Agent生成的代码,现在只盯着三个检查点的输入输出。这种信任转移不是盲目的,是建立在一系列"它确实抓到了我差点漏掉的问题"的正向反馈上。

比如上周一个渠道归因分析,Agent在数据检查阶段 flagged 出某渠道流量数据存在截断异常——该渠道后台报表只显示前1000条转化记录,超过部分被静默丢弃。这个细节 buried 在原始数据文档的第17页,我此前扫过两遍都没注意。

但信任也有边界。涉及跨部门利益分配的结论,我仍然坚持手动复核核心假设。这不是对AI的不信任,是对组织政治复杂性的尊重。

三个月下来,这套Agent没有让我变成"因果分析大师",但确实把我从"写代码的分析师"变成了"审结论的分析师"。角色转换的代价是更高的判断责任——当你不能甩锅给"代码是我亲手写的"时,每个签字都更沉。

现在我把这个Skill共享给了团队,附带的文档第一条写的是:"Agent不会替你背锅,它只负责让你背锅背得更清楚。"

你的团队里,有哪些分析流程已经标准化到可以交给Agent,又有哪些环节必须留给人脑?