上周,开发者发布了一款名为cc-audit的Python工具,专门用于检测CLAUDE.md或AGENTS.md文件的质量。这款工具依据12条行为规则对文件进行评分,规则涵盖AI编程代理的工作方式。开发者用它对GitHub上492份公开的CLAUDE.md文件进行了扫描,结果揭示了当前生态系统的真实面貌。
数据来源为GitHub代码搜索返回的前500个公开CLAUDE.md文件,其中492份在扫描时可访问,另外8份已被移动、重命名或置于分支后。评分采用关键词信号匹配方式,检查文件是否涉及每条规则。同时,工具还扫描了API密钥、数据库URL、私钥等敏感信息泄露情况,并启用了占位符感知过滤。
这12条规则源自claude-code-pro-pack基线,包括Karpathy最初提出的4条,以及针对代理编排失败模式补充的8条。具体包括:编写新代码前阅读相邻或现有代码;不虚构API、导入或文件路径;展示部分成功,绝不静默失败;为每项任务设置令牌上限,达到时停止并询问;匹配项目现有风格和约定;每次运行只处理一项任务,不捆绑无关变更;展示冲突模式而非取平均;声明完成前运行测试;不擅自编辑范围外内容;用一行总结每次工具调用的效果;卡住或模糊时停止询问;失败状态可见,绝不隐藏错误。
扫描结果显示,492份文件的大小差异显著,最小11字节,中位数3.9KB,平均7.5KB,最大167KB。合规表现方面,中位数为3/12,平均3.54/12,最高10/12。没有文件获得满分12/12,41份文件得零分,占比8%。仅11份文件进入前25%,得分不低于9/12,占比2.2%。好消息是,未发现任何文件泄露生产环境密钥。
一句话总结:中位数水平的CLAUDE.md只覆盖了四分之一的重要行为规则,而前2%的文件覆盖了四分之三。
在规则覆盖方面,"运行测试"是几乎所有人都写到的规则,仅13%的文件遗漏。这与过去一年来各类CLAUDE.md模板普遍包含"运行测试"版本有关。覆盖率第二高的是"匹配项目风格",达55%,主要是因为这条规则常被引用自Karpathy的原始版本。其余规则则处于"部分文件记得,大部分不记得"的状态。
某些规则的缺失会造成实际时间损失。规则9"不擅自编辑范围外内容"被98%的文件遗漏。缺少这条,代理可能在修复单行bug时"好心"地重新格式化整个文件,导致PR中出现500行噪音包裹3行实际修改,审阅者被淹没,真实变更被淹没。添加这条规则只需一句话。
规则10"总结工具调用"被94%的文件遗漏。没有这条,你会得到大量"我打算做什么"的冗长解释,却很少看到"我实际做了什么"。长时间会话中你会迷失主线。只需一句话:"每次工具调用后,写一行说明:你修改了什么,哪个文件。"
规则12"可见失败状态"被91%的文件遗漏。这是"迁移成功完成"问题的另一种表现形式——代理在成功叙述的段落中隐藏失败,或干脆不报告错误。
热门跟贴