你现在写技能文件给AI干活,还是在凭感觉猜。你不知道它到底听不听话,不知道你啰嗦的地方它本来就会,不知道你的“好心指点”反而让它更糊涂——更不知道换个便宜的Haiku模型,它还能不能跑。
skill-optimizer做的事,是把这种“我感觉”变成“数据说”。给技能上一套法官打分的评估流水线,让AI代理带着你的技能跑真实任务,再不带技能跑一遍当对照。两次分数的差距,就是你那篇SKILL.md的真实价值。
这条流水线现在有两套互补招式。第一式叫skill review,是静态地看你的技能文件本身,从完整性、可操作性、简洁度和鲁棒性四个维度打分。结构问题不用等跑起来才暴露,这一关就能筛掉一批。第二式是任务评估,先根据你的技能自动生成真实场景的任务,每个场景跑两轮——一轮不带技能当基线,一轮带上技能出结果,再让一个LLM法官按任务专属评分标准给两个输出分别打分。技能的价值增量,全在分数差里。
还有一个之前你可能根本没意识到的盲区:你的技能有没有被调用。在一个装了多个技能的插件里,代理得先正确路由到对的技能,后面所有优化逻辑才有意义。现在可以用激活评估来测这个,逐个场景挖路由缺口,还自动给技能描述出改写建议。
Matteo Collina开源了一套现代Node.js开发技能集,社区已经拿了1200多颗星、80多个分支,覆盖Fastify、TypeScript、代码规范、文档和核心Node.js模式。我就是拿他那个Fastify最佳实践技能做了一次实测。在Claude Code里敲了一句话:把这个项目里的Fastify技能优化一下。然后离开座位去拿咖啡。
回来一看,结果已经全出来了:五个真实评估场景,每个场景的基线分数,优化前后的完整对比,诊断出一个退化问题,给出了修复方案,重新跑了一遍验证了改善。这个技能在真实场景下的平均成功率从67%跳到了94%。我没有写一条评估,没有设计一个评分标准,就说了三个词,剩下的全是skill-optimizer自己干的。
结果分析现在也不只是简单过一遍。系统用了一套四桶框架来归类每个场景:正常工作的、有缺口的、描述冗余的、引发退化的。不是笼统说“有问题”,而是告诉你每一类问题到底有多少、出在哪里。
热门跟贴