写行命令喝杯咖啡，回来技能准确率从67%飙到94%|skill|古坑咖啡|路由

你现在写技能文件给AI干活，还是在凭感觉猜。你不知道它到底听不听话，不知道你啰嗦的地方它本来就会，不知道你的“好心指点”反而让它更糊涂——更不知道换个便宜的Haiku模型，它还能不能跑。

skill-optimizer做的事，是把这种“我感觉”变成“数据说”。给技能上一套法官打分的评估流水线，让AI代理带着你的技能跑真实任务，再不带技能跑一遍当对照。两次分数的差距，就是你那篇SKILL.md的真实价值。

这条流水线现在有两套互补招式。第一式叫skill review，是静态地看你的技能文件本身，从完整性、可操作性、简洁度和鲁棒性四个维度打分。结构问题不用等跑起来才暴露，这一关就能筛掉一批。第二式是任务评估，先根据你的技能自动生成真实场景的任务，每个场景跑两轮——一轮不带技能当基线，一轮带上技能出结果，再让一个LLM法官按任务专属评分标准给两个输出分别打分。技能的价值增量，全在分数差里。

还有一个之前你可能根本没意识到的盲区：你的技能有没有被调用。在一个装了多个技能的插件里，代理得先正确路由到对的技能，后面所有优化逻辑才有意义。现在可以用激活评估来测这个，逐个场景挖路由缺口，还自动给技能描述出改写建议。

Matteo Collina开源了一套现代Node.js开发技能集，社区已经拿了1200多颗星、80多个分支，覆盖Fastify、TypeScript、代码规范、文档和核心Node.js模式。我就是拿他那个Fastify最佳实践技能做了一次实测。在Claude Code里敲了一句话：把这个项目里的Fastify技能优化一下。然后离开座位去拿咖啡。

回来一看，结果已经全出来了：五个真实评估场景，每个场景的基线分数，优化前后的完整对比，诊断出一个退化问题，给出了修复方案，重新跑了一遍验证了改善。这个技能在真实场景下的平均成功率从67%跳到了94%。我没有写一条评估，没有设计一个评分标准，就说了三个词，剩下的全是skill-optimizer自己干的。

结果分析现在也不只是简单过一遍。系统用了一套四桶框架来归类每个场景：正常工作的、有缺口的、描述冗余的、引发退化的。不是笼统说“有问题”，而是告诉你每一类问题到底有多少、出在哪里。