嘉宾分享_全网最深入的Agent时代评测体系：变与不变_@张和老师|agent|代码|嘉宾分享|大模型|时代|算法|评测体系|连麦

自从 Claude Code 和 Codex 成了现象级产品，我们突然意识到：一个 Agent 无所不能的时代，真的来了。写代码、跑测试、调工具、看日志、自我修复，这些过去要一整个团队才能干的事，现在一个 Agent 就能端到端跑下来。

但在实际落地到真实业务中时，Agent 越能自主干活，它出错的空间就越大，评测的复杂度实际上也在变大。幸运的是，AI Coding的进步，结合程序化调用Claude Code（比如通过Claude Agent SDK），也在让评测的自动化程度，变得前所未有的高，让我们去应对Agent评测中的复杂度。

过去3个月，我闭关了3个月，深度使用Claude Code和Codex、开发了一款基于Claude Agent SDK的Excel Agent插件，并在过程中，全程自建了评测集、评测执行环境、评测报告体系。

这篇文章中，我会结合过去8年、负责多个AI产品团队的评测和数据体系的经验，以及最新的Agentic时代的评测落地心得，谈一谈”Agent时代评测的变与不变“。

其中部分思想，更适合自己训练/微调模型的团队，包括LLM、图像模型、具身智能等，部分思想更适合Agent工程的场景，但其底层的逻辑是相通的。

其中最让我兴奋的一个变化，是评测正在从"发现问题"进化成"直接驱动代码自动迭代"：评测暴露一个 bad case，Agent 就能钻进代码库分析 prompt、改代码、提 PR，端到端全自动。这一点后面我会详细讲，它已经在我自己的产品里跑通了。

一、不变的：科学评测的核心哲学

无论工具怎么进化，科学的评测体系中，下面这几条哲学思想是不变的，需要AI产品经理或评测负责人深度思考，基于思想来灵活落地。

1.评测的终极产出是“迭代闭环”，不是报告。

如果一定要选1个指标，作为评测团队的北极星指标，我的建议是，模型/Agent迭代周期：从初步发现某个场景的问题、到精准定位根因，到训练模型/调整Agent Prompt或架构，到验证修复，这一整圈要多久。

2. 对于模型团队来说，评测集要"略微领先于训练集"。

只能测出模型已经会的东西，对优化毫无价值；难度要略高于当前能力，持续暴露它"还不会"的地方。评测先走一步，训练才有方向。

这个核心思想，是帮助我们推演整个评测集如何采集、标注、打分的最关键底层思路（后面还会细讲）。

3. 好评测集有三条铁律：

①难度分布要故意比真实世界更难，40% 简单中等、20–30% 偏难、永远留 10–20% 极难题，真实世界万分之一的极端 case ，要放大到 1%（"撵驴原则"，但别像 Humanity's Last Exam 那样曲高和寡）；

②尽可能以真实数据为主，训练集可以95%合成，但评测集尽可能以真实数据为主，最多合成数据占比2、30%，因为它体量比训练集小约一万倍，单位成本撑得起；

③单位投入是训练集的 10–100 倍，请 985 博士给研究级难题当标注员都值。

4. Look at your data。

再漂亮的总分，也代替不了亲眼去看一个个 bad case。评测平台真正的价值，是让算法工程师能从一个出错的 case，一路回溯到训练数据的根因：哪类数据少了、质量差了、标签错了。看得见问题，才改得动问题。

这些哲学，五年前对，今天还对，Agent 时代依然对。

二、变的：执行方式与自动化效率

哲学不变，但执行的每个环节都在被 Agent 重写。

1.数据采集和标注：从人工挖掘和人工标注，到全流程自动化。

过去靠人工挖、人工标；现在从挖掘、清洗到预标注，每一层都能交给 Agent。“千万→百万→十万”的漏斗，每一层都可以设计Agent 盯着质量，精度远超纯脚本。

2. Trigger：从规则匹配，到语义理解。

过去 Trigger 多是代码型，比如检测关键词（用户骂"你好笨"往往意味着模型翻车了）。现在可以上 AI 型 Trigger：在抽样数据上跑小模型，按结构化标准，判断这条 query 有没有评测价值。

3.执行打分：从纯代码 workflow，到agentic workflow。这是最大的变化，体现在三个子环节：

①打分：LLM-as-Judge → Agent-as-Judge。不再是"喂固定 prompt 让大模型打分"，而是让一个 Agent 逐条深度分析 trace、横向对比顶尖模型、再让下一个 Agent 聚类成报告。没有标准答案时，用 GPT-5/Claude 当参照物，多模型投票取最大公约数。

②运行：从死脚本，到Agent 看护。纯脚本遇到 Agent 的意外行为（反问用户、崩溃）就卡死；现在让一个 Agent 看护批量脚本，该点鼠标就点、崩溃就重启、脚本有 bug 就现场改，第二天另一个 Agent 验收几百条 trace。一个看护、一个验收。

③纠偏：用统计学正面应对 Agent 的不确定性。它准确率浮动（90–95%），但只要下游有人工，方差就能算出来；算出偏差，就在输入端放宽补偿，再加异构数据源，不会因单个 Agent 出错而全军覆没。

4.报告：从死网页，到动态可交互。

过去的报告是写死的，只有一堆冷数字。现在每一类场景的评测报告，都该长得不一样、可点选、可下钻、可回溯到训练数据：coding 任务有 coding 的可视化，表格任务有表格的可视化。

只有当问题被量化、可视化地摆在工程师面前，他才会真上心。

三、终极闭环：评测直接驱动代码自动迭代

把上面这些自动化环节串起来，就得到了 Agent 时代最激动人心的能力：全自动的「端到端」研发闭环。

前面说过，评测真正的产出是迭代，衡量它的关键是闭环周期。过去这个闭环，要靠人一环环去推，AI coding 时代，它第一次可以自己转起来。

做法是，把评测直接接到代码库：评测一旦暴露某个做得不好的场景，Agent 立刻钻进代码库，分析对应的 prompt、分析 Agent 的架构和代码，根据 bad case 直接改代码，跑通后提交 pull request。

本质上：一套好的 Agent 评测集 + 自动评价器，可以直接接到自动的代码迭代，实现“研发→评测→优化”全自动端到端循环。这对 Agent 产品尤其关键，因为提升一个 Agent，大量工作并不是改模型权重，而是改 harness、改 prompt、改编排代码，而这些正是 Agent 自己最擅长改的东西。

我在 ExcelMaster 里，就部署了这样一个自动 debug agent：每晚它在后台批量跑测试，自动启动程序、输入 query，跑完后逐行阅读运行日志，分析 MCP 调用、代码执行和自我修复的全过程，定位出哪些模块没做好，给出方案、直接动手改生产级代码。第二天我醒来，就会收到飞书发来的高优先级BUG列表，以及跑了一整夜的结果和建议改进的代码pull request。

评测，正在从“考官”变成“自动驾驶”。

四、一个判断：AI coding 时代，优先自研评测平台

上面这种“评测直接驱动改代码”的闭环，只有把评测和自己的代码库、harness 彻底打通才做得到。这就带出一个很多人都会纠结的问题：评测平台，到底是用现成的，还是自己搭？

很多团队第一反应是上 LangSmith、LangFuse 这类第三方平台。但在 AI coding 时代，我更倾向于另一个答案：优先自研。

逻辑很简单：第三方平台是通用的，而评测的价值，恰恰在于针对你的细分任务，做针对性的可视化和深度集成，这正是通用平台给不了的。同时，AI coding 把自研的成本和门槛，降到了前所未有的低。

拿我自己的 ExcelMaster Agent 举例：

在评测平台里，直接可视化表格数据，通用平台只会给你看文本 trace，看不懂 Excel 的结构；
在评价器里，便捷地嵌入 Claude Agent SDK，让打分 Agent 拥有真正的分析和动手能力；
让数据集管理与可视化平台，和执行的本地 harness 客户端无缝衔接：trace 刚落盘，打分就自动启动；评测一暴露问题，debug agent 就能顺着接到代码库去改。

这种"针对细分任务的深度定制 + 端到端打通"，是任何通用平台都做不到的。AI coding 时代，自研不再是奢侈品。

五、给想转型 AI 的产品经理

评测不需要你是博士、不需要从零训模型。它需要的是：对数据有直觉、对场景有判断、愿意 look at your data，并能用 Agent 工具把想法快速做成 demo 验证。这正是产品经理的主场：做一个“半研究员型”PM，和算法一起共创训练集、评测集、评价标准，而不是站在门外提需求。

由于篇幅所限，这篇文章把Agent工程和模型训练的评测方法，整合到了一起。我计划在6月13日晚8点，单独做一次闭门分享，更加详细的讲解，Agent时代的评测体系和案例，并针对工程落地 VS 模型训练/微调，提供更针对性的方法建议。

【重要通知】本周六、日（6月13号、14号）晚8点，张和老师将进行2场闭门直播公开课，欢迎报名~

1、分享主题