492份AI编程指令文件实测：中位数仅达标3项|ai编程指令|中位数|代码|密钥|文件实测|自然语言|调用

上周，开发者发布了一款名为cc-audit的Python工具，专门用于检测CLAUDE.md或AGENTS.md文件的质量。这款工具依据12条行为规则对文件进行评分，规则涵盖AI编程代理的工作方式。开发者用它对GitHub上492份公开的CLAUDE.md文件进行了扫描，结果揭示了当前生态系统的真实面貌。

数据来源为GitHub代码搜索返回的前500个公开CLAUDE.md文件，其中492份在扫描时可访问，另外8份已被移动、重命名或置于分支后。评分采用关键词信号匹配方式，检查文件是否涉及每条规则。同时，工具还扫描了API密钥、数据库URL、私钥等敏感信息泄露情况，并启用了占位符感知过滤。

这12条规则源自claude-code-pro-pack基线，包括Karpathy最初提出的4条，以及针对代理编排失败模式补充的8条。具体包括：编写新代码前阅读相邻或现有代码；不虚构API、导入或文件路径；展示部分成功，绝不静默失败；为每项任务设置令牌上限，达到时停止并询问；匹配项目现有风格和约定；每次运行只处理一项任务，不捆绑无关变更；展示冲突模式而非取平均；声明完成前运行测试；不擅自编辑范围外内容；用一行总结每次工具调用的效果；卡住或模糊时停止询问；失败状态可见，绝不隐藏错误。

扫描结果显示，492份文件的大小差异显著，最小11字节，中位数3.9KB，平均7.5KB，最大167KB。合规表现方面，中位数为3/12，平均3.54/12，最高10/12。没有文件获得满分12/12，41份文件得零分，占比8%。仅11份文件进入前25%，得分不低于9/12，占比2.2%。好消息是，未发现任何文件泄露生产环境密钥。

一句话总结：中位数水平的CLAUDE.md只覆盖了四分之一的重要行为规则，而前2%的文件覆盖了四分之三。

在规则覆盖方面，"运行测试"是几乎所有人都写到的规则，仅13%的文件遗漏。这与过去一年来各类CLAUDE.md模板普遍包含"运行测试"版本有关。覆盖率第二高的是"匹配项目风格"，达55%，主要是因为这条规则常被引用自Karpathy的原始版本。其余规则则处于"部分文件记得，大部分不记得"的状态。

某些规则的缺失会造成实际时间损失。规则9"不擅自编辑范围外内容"被98%的文件遗漏。缺少这条，代理可能在修复单行bug时"好心"地重新格式化整个文件，导致PR中出现500行噪音包裹3行实际修改，审阅者被淹没，真实变更被淹没。添加这条规则只需一句话。

规则10"总结工具调用"被94%的文件遗漏。没有这条，你会得到大量"我打算做什么"的冗长解释，却很少看到"我实际做了什么"。长时间会话中你会迷失主线。只需一句话："每次工具调用后，写一行说明：你修改了什么，哪个文件。"

规则12"可见失败状态"被91%的文件遗漏。这是"迁移成功完成"问题的另一种表现形式——代理在成功叙述的段落中隐藏失败，或干脆不报告错误。