现在 Agent 产品很多,Claude Code、ChatGPT Agent、Manus、Genspark...还有各种各样的
对于大家的干活靠谱程度,红杉中国的 xbench 团队,又整了新评测,叫 AgentIF-OneDay
(俩周,发了俩评测集了,另一个是 ,然后xiaobo 跟我说,他上个月全在整这个)
大概就是:一堆真实的日常任务,带着 Excel、PPT、PDF 这些附件,能不能帮我搞定
结论:头部 Agent 大约 62-65%
先说在前面:这个榜单目前啥也不代表,看 insight 就行
能同时跑通所有附件格式的 Agent 其实很少,xbench 测了一圈,只有四家能完整跑完
Claude Code 因为各种原因没测出来,Cowork 测的时候还没发布,其他很多 Agent 要么不支持 PPT,要么不支持 Excel,反正就是跑不通
所以这次的价值不在排名,在方向
顺便一提,虽然大家都是混合模型,但 Manus 和 Minimax-Agent 的基础模型更偏 Claude,Genspark 和 ChatGPT-Agent 更偏 GPT
为什么要做这个评测
xbench 之前发过 ScienceQA 和 DeepSearch,都是分钟级的集中推理任务,模型表现已经从 human-average 逐渐到了 PhD-level
但他们发现一个问题:一旦任务突破一般人一小时可处理的复杂度,Agent 的整体完成度就会出现明显下降
短程任务表现惊艳,长程任务显乏力
所以 xbench 提了一个新视角来理解 Agent 能力边界:任务复杂度
这里的复杂度,指的是完成一个任务所需的人类时间投入
Agent 能力的演进会沿着两条线展开:
Scaling Context
任务在时间维度上延展,从分钟级到一天级、甚至一周级。Agent 需要在更长的执行周期中维护上下文状态,跟踪中间目标,保持一致性
Scaling Domain
任务类型上的扩展。现实世界的工作往往横跨多个领域,不同任务在目标表述、隐含约束、工具使用上差异很大
AgentIF-OneDay 就是沿着这两个方向推进的第一步:以人类一天内可完成的任务复杂度作为基准
这个评测在测什么
AgentIF-OneDay 的核心是指令遵循,它要求 Agent 处理真实的附件:Excel、PPT、PDF、图片,然后输出可交付的文件,任务分三类:
场景一:你知道该怎么做,但执行太繁琐
用户已知完整流程并明确给出操作步骤,Agent 只需精确执行。这类任务叫工作流执行(Workflow Execution)
例题 我计划去 NeurIPS 2025,帮我规划一个好的行程方案。请你先去官网确认 NeurIPS 2025 会议的主会场位置(San Diego Convention Center, San Diego)是否准确,然后用另一个可靠来源交叉验证这个信息,确保万无一失 接下来,帮我收集基本信息,比如会议时间、地点和论文提交截止日期 还要确认完整的会议日程是否已经发布,如果还没发布,请明确告诉我 最后,从纽约出发给我两套去圣地亚哥的行程方案:一个最便宜的 Cheap Plan,一个最快的 Fast Plan
当 Agent 能够在整个流程中保持一致性、逐步完成步骤、并在长上下文中保持状态,就具备帮你把事情做完的潜力
这也是大量用户希望 Agent 能真正替代重复性劳动的原因
场景二:你不知道规则,只能给个参考
用户不明确知道完整的工作流或者条件约束,只提供若干案例或参考资料。这类任务叫隐式指令推理(Latent Instruction Inference)
例题 我现在用的是 iPhone 13 Pro Max,AT&T 套餐每月 20 美元预付费。我想换 iPhone 17 Pro Max 基于附件里的购机方案和运营商优惠,帮我找出总成本最低的方式
这是人类最自然的工作方式,人们不会每次都从零写起
Agent 需要从提供的示例文件中挖掘出潜在的意图,同时满足用户的显式指令与附件的隐式指令
如果具备这种能力,Agent 就能真正参与内容生产、报告生成、数据整理等职业型任务
场景三:需求本身是动态的,要边做边看
人类的工作普遍呈现多轮迭代结构,在工作的开始并不知道完整解法、也没有参考示例,需要在与 Agent 多轮交互中逐渐提出新需求。这类任务叫迭代式编辑(Iterative Refinement)
例题 拿着这个 SVG 平面图(venue_layout.svg)和 Excel 约束表(venue_constraints.xlsx),更新会场布局以满足所有约束条件,同时保持设计的可读性和可行走性
Agent 必须具备在不断变化的约束下维持上下文一致性并稳定推进任务的能力
评测细节
总共 104 道任务,覆盖工作、生活(游戏攻略、旅游规划)和学习,其中 62 道由文件驱动的合成任务用于补充长尾场景
覆盖 PDF、PPT、Excel、图像、代码文件在内的 15 种以上格式,模拟真实工作流程中跨格式、跨来源的模式
每道任务都带有一套细粒度的评判标准,总计 767 个评分点,分为正向指标(格式一致性、结构复现、步骤完整)与负向指标(误删内容、越界生成、错误操作)
评测系统采用 LLM 作为裁判,值得一提的是 Gemini 3-pro 的出现让 rubrics 打分的准确性提升到可用的程度
Agent 的得分不仅取决于最终是否完成任务,还包括流程是否干净、是否出现误操作、是否正确解析附件、是否能在迭代过程中保持一致性
几个有意思的发现
发现一:不同框架,拉不开差距
Manus、Genspark 与 ChatGPT-Agent 都集中在 0.62-0.65 区间,构成当下能力最强的第一梯队
不管是模型原生训练出来的 Agent,还是基于 API 的工具链集成,在完成一套真实任务链时,用户侧感受到的能力是比较接近的
这印证了一个判断:基础 Agent 能力已经商品化了
底层模型能力不变的情况下,不同多智能体框架本身难以拉开数量级上的性能差异。基座模型会逐步集成 agentic 能力,下游基于 API 的 Agent 产品,在能力表现上也会体现出 Agent RL 的能力
发现二:分场景各有所长
工作场景:ChatGPT-Agent 72.18,Genspark 71.86,Manus 70.27
生活场景:Manus 73.40,ChatGPT-Agent 69.67,Genspark 67.85
学习场景:Genspark 71.19,Manus 64.41,ChatGPT-Agent 59.29
三个产品迭代方向不同。ChatGPT-Agent 重点关注 GDPval,聚焦专业工作场景的体验;Manus 与 Genspark 更侧重用户反馈
xbench 的观点是:优秀的通用 Agent 应当兼顾最多样的任务,而不侧重一方
发现三:分能力维度看
Genspark 在隐式指令推断上表现最优,Manus 在开放工作流执行最优,Minimax-Agent 具有最好的迭代式编辑能力
但隐式条件推断是目前 Agent 普遍最薄弱的能力项
比如让 Agent 从 PPT 模板中抽取页眉页脚结构或引用标注方式,再迁移到新内容生成中
即便是整体表现最好的系统,在这类任务中也很难做到完全正确。要么格式复现正确但覆盖不足,要么内容理解到位但无法保持结构一致
综合来看,稳定性、文件处理链路、隐式结构理解能力,乃至跨工具的状态管理,都是决定 Agent 能否真正承担一天工作量的关键环节
展望:从 OneDay 到 OneWeek
xbench 已经开始着手构建 OneWeek 评测集
他们的判断是:当一个 Agent 能够在一周尺度的工作量上保持稳定高质量的产出,它就具备了承担真实岗位的能力
这个过程有点像自动驾驶,从有限路段走向通用路段,从频繁人工干预走向长时无干预
有效的数据积累可以带来高可靠 Agent 系统的出现,优先转起数据飞轮的公司将率先实现通用 Agent 的 FSD 时刻
xbench 的节奏
xbench 是红杉中国 2025 年 5 月发的 AI 评测基准,设计思路是 Evergreen Evaluation,持续维护、动态更新
这两周,他们连发两篇:上周是 ,测多模态的纯视觉能力,这周 AgentIF-OneDay 测 Agent 的日常任务能力
BabyVision 的结论是模型的视觉能力普遍低于 3 岁儿童
AgentIF-OneDay 的结论是最强 Agent 在日常任务上大约 65%
所以嘛,模型的「看」和「做」,都还有很大空间
开源地址
Paper Linkhttps://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf
Websitehttps://xbench.org/
GitHubhttps://github.com/xbench-ai/AgentIF-OneDay
HuggingFacehttps://huggingface.co/datasets/xbench/AgentIF-OneDay
热门跟贴