自从 Claude Code 和 Codex 成了现象级产品,我们突然意识到:一个 Agent 无所不能的时代,真的来了。写代码、跑测试、调工具、看日志、自我修复,这些过去要一整个团队才能干的事,现在一个 Agent 就能端到端跑下来。
但在实际落地到真实业务中时,Agent 越能自主干活,它出错的空间就越大,评测的复杂度实际上也在变大。幸运的是,AI Coding的进步,结合程序化调用Claude Code(比如通过Claude Agent SDK),也在让评测的自动化程度,变得前所未有的高,让我们去应对Agent评测中的复杂度。
过去3个月,我闭关了3个月,深度使用Claude Code和Codex、开发了一款基于Claude Agent SDK的Excel Agent插件,并在过程中,全程自建了评测集、评测执行环境、评测报告体系。
这篇文章中,我会结合过去8年、负责多个AI产品团队的评测和数据体系的经验,以及最新的Agentic时代的评测落地心得,谈一谈”Agent时代评测的变与不变“。
其中部分思想,更适合自己训练/微调模型的团队,包括LLM、图像模型、具身智能等,部分思想更适合Agent工程的场景,但其底层的逻辑是相通的。
其中最让我兴奋的一个变化,是评测正在从"发现问题"进化成"直接驱动代码自动迭代":评测暴露一个 bad case,Agent 就能钻进代码库分析 prompt、改代码、提 PR,端到端全自动。这一点后面我会详细讲,它已经在我自己的产品里跑通了。
一、不变的:科学评测的核心哲学
无论工具怎么进化,科学的评测体系中,下面这几条哲学思想是不变的,需要AI产品经理或评测负责人深度思考,基于思想来灵活落地。
1.评测的终极产出是“迭代闭环”,不是报告。
如果一定要选1个指标,作为评测团队的北极星指标,我的建议是,模型/Agent迭代周期:从初步发现某个场景的问题、到精准定位根因,到训练模型/调整Agent Prompt或架构,到验证修复,这一整圈要多久。
2. 对于模型团队来说,评测集要"略微领先于训练集"。
只能测出模型已经会的东西,对优化毫无价值;难度要略高于当前能力,持续暴露它"还不会"的地方。评测先走一步,训练才有方向。
这个核心思想,是帮助我们推演整个评测集如何采集、标注、打分的最关键底层思路(后面还会细讲)。
3. 好评测集有三条铁律:
①难度分布要故意比真实世界更难,40% 简单中等、20–30% 偏难、永远留 10–20% 极难题,真实世界万分之一的极端 case ,要放大到 1%("撵驴原则",但别像 Humanity's Last Exam 那样曲高和寡);
②尽可能以真实数据为主,训练集可以95%合成,但评测集尽可能以真实数据为主,最多合成数据占比2、30%,因为它体量比训练集小约一万倍,单位成本撑得起;
③单位投入是训练集的 10–100 倍,请 985 博士给研究级难题当标注员都值。
4. Look at your data。
再漂亮的总分,也代替不了亲眼去看一个个 bad case。评测平台真正的价值,是让算法工程师能从一个出错的 case,一路回溯到训练数据的根因:哪类数据少了、质量差了、标签错了。看得见问题,才改得动问题。
这些哲学,五年前对,今天还对,Agent 时代依然对。
二、变的:执行方式与自动化效率
哲学不变,但执行的每个环节都在被 Agent 重写。
1.数据采集和标注:从人工挖掘和人工标注,到全流程自动化。
过去靠人工挖、人工标;现在从挖掘、清洗到预标注,每一层都能交给 Agent。“千万→百万→十万”的漏斗,每一层都可以设计Agent 盯着质量,精度远超纯脚本。
2. Trigger:从规则匹配,到语义理解。
过去 Trigger 多是代码型,比如检测关键词(用户骂"你好笨"往往意味着模型翻车了)。现在可以上 AI 型 Trigger:在抽样数据上跑小模型,按结构化标准,判断这条 query 有没有评测价值。
3.执行打分:从纯代码 workflow,到agentic workflow。这是最大的变化,体现在三个子环节:
①打分:LLM-as-Judge → Agent-as-Judge。不再是"喂固定 prompt 让大模型打分",而是让一个 Agent 逐条深度分析 trace、横向对比顶尖模型、再让下一个 Agent 聚类成报告。没有标准答案时,用 GPT-5/Claude 当参照物,多模型投票取最大公约数。
②运行:从死脚本,到Agent 看护。纯脚本遇到 Agent 的意外行为(反问用户、崩溃)就卡死;现在让一个 Agent 看护批量脚本,该点鼠标就点、崩溃就重启、脚本有 bug 就现场改,第二天另一个 Agent 验收几百条 trace。一个看护、一个验收。
③纠偏:用统计学正面应对 Agent 的不确定性。它准确率浮动(90–95%),但只要下游有人工,方差就能算出来;算出偏差,就在输入端放宽补偿,再加异构数据源,不会因单个 Agent 出错而全军覆没。
4.报告:从死网页,到动态可交互。
过去的报告是写死的,只有一堆冷数字。现在每一类场景的评测报告,都该长得不一样、可点选、可下钻、可回溯到训练数据:coding 任务有 coding 的可视化,表格任务有表格的可视化。
只有当问题被量化、可视化地摆在工程师面前,他才会真上心。
三、终极闭环:评测直接驱动代码自动迭代
把上面这些自动化环节串起来,就得到了 Agent 时代最激动人心的能力:全自动的「端到端」研发闭环。
前面说过,评测真正的产出是迭代,衡量它的关键是闭环周期。过去这个闭环,要靠人一环环去推,AI coding 时代,它第一次可以自己转起来。
做法是,把评测直接接到代码库:评测一旦暴露某个做得不好的场景,Agent 立刻钻进代码库,分析对应的 prompt、分析 Agent 的架构和代码,根据 bad case 直接改代码,跑通后提交 pull request。
本质上:一套好的 Agent 评测集 + 自动评价器,可以直接接到自动的代码迭代,实现“研发→评测→优化”全自动端到端循环。这对 Agent 产品尤其关键,因为提升一个 Agent,大量工作并不是改模型权重,而是改 harness、改 prompt、改编排代码,而这些正是 Agent 自己最擅长改的东西。
我在 ExcelMaster 里,就部署了这样一个自动 debug agent:每晚它在后台批量跑测试,自动启动程序、输入 query,跑完后逐行阅读运行日志,分析 MCP 调用、代码执行和自我修复的全过程,定位出哪些模块没做好,给出方案、直接动手改生产级代码。第二天我醒来,就会收到飞书发来的高优先级BUG列表,以及跑了一整夜的结果和建议改进的代码pull request。
评测,正在从“考官”变成“自动驾驶”。
四、一个判断:AI coding 时代,优先自研评测平台
上面这种“评测直接驱动改代码”的闭环,只有把评测和自己的代码库、harness 彻底打通才做得到。这就带出一个很多人都会纠结的问题:评测平台,到底是用现成的,还是自己搭?
很多团队第一反应是上 LangSmith、LangFuse 这类第三方平台。但在 AI coding 时代,我更倾向于另一个答案:优先自研。
逻辑很简单:第三方平台是通用的,而评测的价值,恰恰在于针对你的细分任务,做针对性的可视化和深度集成,这正是通用平台给不了的。同时,AI coding 把自研的成本和门槛,降到了前所未有的低。
拿我自己的 ExcelMaster Agent 举例:
在评测平台里,直接可视化表格数据,通用平台只会给你看文本 trace,看不懂 Excel 的结构;
在评价器里,便捷地嵌入 Claude Agent SDK,让打分 Agent 拥有真正的分析和动手能力;
让数据集管理与可视化平台,和执行的本地 harness 客户端无缝衔接:trace 刚落盘,打分就自动启动;评测一暴露问题,debug agent 就能顺着接到代码库去改。
这种"针对细分任务的深度定制 + 端到端打通",是任何通用平台都做不到的。AI coding 时代,自研不再是奢侈品。
五、给想转型 AI 的产品经理
评测不需要你是博士、不需要从零训模型。它需要的是:对数据有直觉、对场景有判断、愿意 look at your data,并能用 Agent 工具把想法快速做成 demo 验证。这正是产品经理的主场:做一个“半研究员型”PM,和算法一起共创训练集、评测集、评价标准,而不是站在门外提需求。
由于篇幅所限,这篇文章把Agent工程和模型训练的评测方法,整合到了一起。我计划在6月13日晚8点,单独做一次闭门分享,更加详细的讲解,Agent时代的评测体系和案例,并针对工程落地 VS 模型训练/微调,提供更针对性的方法建议。
【重要通知】本周六、日(6月13号、14号)晚8点,张和老师将进行2场闭门直播公开课,欢迎报名~
1、分享主题
第一天:Agent时代的评测体系和案例
第二天:连麦答疑
2、参与方式
加小助理乐乐微信(下图二维码),发送“直播”二字,乐乐会加你进本次分享的专属微信群(直播当天,会把具体直播链接地址,发布群里)。
在直播前后及过程中,会有张和老师分享答疑、相关资料、PPT截图等福利机会,发放到群里。
注:五期课程,暂定在6月下旬开营,持续大概10周时间。
具体安排,后续会再详细通知到星球里。
之前四期课程的介绍文章,可供初步参考,。
【One More Thing】
「黄钊的AI日报·第十一季」,正在进行中,已有212读者加入,。
适合人群:对“AI内容质量”要求非常高的CEO/CXO/VP、产品总监/产品经理、技术大牛/投资人/AI媒体朋友、AI/互联网同行、高校老师/大学生。
可免费试读3篇,扫下图二维码即可——
注:星球“”会员,无需重复购买,星球三大会员权益里,是包含AI日报的。
如果想加我个人微信、围观朋友圈,可扫下图二维码:加好友请备注"公司-姓名-职位"。
ps,万一乐乐微信添加不了(比如提示“操作过于频繁”),也可加我这个微信。
黄钊hanniman,前腾讯PM,前图灵机器人-人才战略官/AI产品经理,13年AI、16年互联网经验;社群""(9年)和自媒体""(12年);作品有《》、「」。
热门跟贴