最近,红杉中国 xbench 在行业里有不少动作,连发两篇Agent有关的论文。
老朋友应该都知道,xbench是红杉中国推出的一款AI基准测试,用来量化AI系统在真实场景的效用价值,采用的是长青评估机制。
xbench想在市面上鱼龙混杂的“刷榜”、“野榜”、“纸面数据”之外,建立起一套评价标准,更好地衡量 AI 模型在真实业务场景中,解决复杂问题的能力。
印象中的投资机构,亲自下场参与模型能力测评以及技术标准定义的,不算多。
而在AI新技术范式影响下的VC,似乎已经有了新的组织形态,以及在新组织形态上长出来的技术理解和成果。
记得xbench刚发布的时候,我的理解还停留在大模型测评集的阶段,感觉是投资人为了追求更精准的判断力,主动打造的一手实验数据。
现在再看,红杉中国对AI模型能力边界和Agent发展路线的理解,不亚于一线的技术型公司。
所以,别以为投资人不懂技术、很好忽悠了。
我甚至有种恐慌,也许有一天,头部基金,用Venture Studio等形式,亲自下场做产品也很正常。
听说已经有了。
难道下一个字节跳动,会是投资人在投资机构里,自己vibe coding出来的吗?
说不定真的有可能。
https://xbench.org/
具体说说这两篇论文是咋回事。
上周,xbench 联合 UniPat AI 发布了 BabyVision,一个专注于纯视觉理解能力的评测集。
它讨论的主题很明确:在世界模型和视觉多模态这条路上,模型的潜力远没有被完全释放。
那套评测并不急着给模型打分,更像是在提醒行业,未来的能力增长,很可能来自对真实世界结构的重新理解。
这一周,xbench 又向前推了一步。
这一次,关注点从「看懂世界」转向了「把一天过完」。
https://xbench.org/agi/agentif
AgentIF-OneDay 的出现,标志着 Agent 评测从短时、单点、封闭任务,正式进入长时、复杂、全场景的现实尺度。
它试图回答一个简单又残酷的问题:如果把人类一天的任务量完整交给一个 Agent,它能否在没有人工介入的情况下,把事情真正做完。
在当前的行业语境下,这个问题比任何排行榜都更重要。
01.当单点能力接近 PhD,Agent 的短板开始暴露
过去一年,大模型在单点推理任务上的进步已经非常明显。
无论数学、代码,还是知识密集型问答,分钟级任务的完成质量已经逼近人类高水平专家。
ScienceQA、DeepSearch 这类评测的多次升级,也不断拉高着模型的上限。
问题出现在时间被拉长之后。
一旦任务复杂度超过普通人一小时可以处理的范围,Agent 的整体完成度会出现明显下滑。
这种下滑并不体现在某个步骤做错,而是体现在全过程的失控:上下文断裂、中间目标丢失、工具调用前后不一致、隐含约束被忽略,最终导致任务在形式上完成,实质上失败。
这道鸿沟的存在,让「Agent 已经很强」与「Agent 还不能真正替你工作」这两种判断同时成立。
xbench 在这一阶段选择引入 AgentIF-OneDay,本质上是一次尺度的重构。
评测的核心不再是模型知道多少知识,也不只是能否完成某个高难度推理点,而是把注意力转向一个更贴近现实的问题:完成一个任务,需要消耗多少人类时间,这个时间背后,对应着怎样的经济价值。
02.用「人类一天」重新定义 Agent 的能力边界
AgentIF-OneDay 背后的一个关键判断,是将任务复杂度与知识深度解耦。
在传统评测中,复杂度往往意味着推理链更长、知识点更冷门、逻辑结构更精巧。
但在真实工作中,复杂度更多来自时间和协同成本。一个任务并不一定难,却可能极其耗时,需要反复确认信息、切换工具、处理格式、校验结果,还要在过程中持续保持目标一致。
xbench 提出了两个决定 Agent 能力上限的轴线:scaling context 与 scaling domain。
前者关注时间维度。
Agent 是否能在更长的执行周期中维护上下文状态,记住中间结果,遵守先前的约束,在多步骤、多工具的交互中保持一致性。
从分钟级,到小时级,再到一天级,这是一个对稳定性和记忆管理要求极高的过程。
后者关注任务分布。
现实世界的工作很少是单一领域的连续推理,而是跨 domain、跨格式、跨语境的混合任务。
目标表述往往不完整,约束隐藏在附件里,评估标准随场景变化。
Agent 能否覆盖更广泛的任务类型,决定了它是否具备真正的通用性。
AgentIF-OneDay 正是沿着这两条轴线展开设计。它把评测的时间尺度推进到 OneDay,同时覆盖生活、学习与职业等多个高频场景,试图描绘出当前 Agent 在真实世界任务分布中的能力轮廓。
03.把一天拆开,工作流、范例与迭代才是真实世界
在构造评测任务之前,xbench 分析了大量用户的真实工作日志。
一个有意思的发现是,具体内容千差万别,但任务结构高度稳定。
大多数人的一天,可以被抽象为三种类型。
第一类是工作流执行。
用户清楚知道该做什么,步骤明确,难点集中在执行的繁琐性和信息校验上。
以 NeurIPS 行程规划为例,Agent 需要跨站点核验信息、收集时间节点、判断日程是否发布,再给出不同优化目标下的方案。
这类任务考验的不是创造力,而是耐心、准确性和流程一致性。
第二类是范例参考。
用户无法完整描述规则,只能提供示例或附件。换手机套餐的例子中,Agent 需要从文件中推断隐含条件,在显式指令与隐式约束之间做出平衡。
这是人类日常工作中最常见的模式,也是 Agent 走向内容生产、报告生成等职业型任务的前提。
第三类是迭代式编辑。
需求在过程中不断变化,约束逐步显现,解法并不预先存在。
更新会场布局的任务,要求 Agent 在多轮修改中保持上下文一致,同时遵守来自不同文件的硬性条件。这类任务对状态管理和长期一致性的要求极高。
AgentIF-OneDay 的 104 道任务,正是围绕这三种结构展开。
文件驱动的合成任务覆盖了 PDF、PPT、Excel、图像、代码等 15 种以上格式,模拟的正是现实工作中极为常见的跨来源、跨工具流程。
04.当评分变得细碎,Agent 的失误也无处可藏
为了避免「结果对了就算赢」的粗糙判断,AgentIF-OneDay 为每道任务设计了细粒度的评分标准,总计 767 个评分点。
这些评分点既包含正向指标,也包含负向指标。
格式是否一致、结构是否复现、步骤是否完整,会被逐一检查;误删内容、越界生成、错误操作,同样会被明确扣分。
评测系统采用 LLM 作为裁判,并结合网页检索、HTML 渲染、多模态比对等自动校验方式,尽量减少主观偏差。
在这套机制下,Agent 的得分不只取决于有没有完成任务,更取决于过程是否干净,是否正确解析附件,是否在迭代中保持一致。
评测结果也呈现出一些值得玩味的现象。
从整体任务成功率来看,Manus、Genspark 与 ChatGPT-Agent 集中在 0.62–0.65 区间,构成第一梯队。
不同技术路线的 Agent,在真实任务链上的体感差异并没有拉开数量级。
这在一定程度上印证了模型能力的重要性,在不引入 test-time scaling 的前提下,多智能体框架本身很难制造巨大差距。
从任务领域看,ChatGPT-Agent 更偏向专业生产力,Manus 在生活助手场景表现突出,Genspark 更适合学习型任务。
不同产品的迭代方向,决定了各自的长项与短板。
从能力维度看,Genspark 在隐式指令推断上表现最佳,Manus 在开放工作流执行中更稳定,Minimax-Agent 在迭代式编辑中优势明显。
隐式结构理解依然是当前 Agent 普遍的薄弱环节,尤其是在格式迁移和规则抽取任务中,完整正确的案例仍然罕见。
这些结果共同指向一个结论:稳定性、文件处理链路、隐式结构理解能力,以及跨工具的状态管理,才是决定 Agent 能否承担一天工作量的关键。
05.从OneDay到OneWeek,Agent的下一道门槛
在 AgentIF-OneDay 之后,xbench 已经开始构建 OneWeek 级别的评测集。
一周尺度的任务,带来的挑战并不仅仅是时间更长。
随着跨度增加,任务往往会自然嵌入具体行业语境,金融、医疗、法律等高价值场景的数据获取成本显著上升,rubric 的设计也会变得更加严格。
在这一阶段,依赖静态数据集和离线评测的方式开始显露局限性。
Agent 要想进一步提升,很难只靠训练时吃下更多人类知识,而需要在实际运行中不断修正行为。这也是近期 online learning 讨论升温的背景。
如果把长程 Agent 的发展类比自动驾驶,那么当前阶段更接近有限路段的辅助驾驶。
真正的 FSD 时刻,依赖于大量真实场景数据的积累。用户数据带来的场景多样性,是系统泛化能力的关键来源。
在 Agent 领域,同样的逻辑正在显现。谁能率先建立高质量的数据飞轮,谁就更有可能率先交付可靠的长程 Agent。
当 Agent 能够在一周尺度上稳定产出,它才真正具备进入组织、承担岗位、创造持续经济价值的资格。
AgentIF-OneDay 的意义,正在于此。
它并不宣告某个系统已经足够成熟,而是清晰地标出了下一段路的难度与方向。
最后,强烈大家去看看论文原文!
以及去红杉中国xbench的官网去看看,上面有各种各样的打分和排名,还有些好玩的小东西!
https://xbench.org/
AI一年,人间十年。
连投资人都这么努力,我们也多看些论文吧……
Paper Link:
https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf
website:
https://xbench.org/
github:
https://github.com/xbench-ai/AgentIF-OneDay
huggingface:
https://huggingface.co/datasets/xbench/AgentIF-OneDay
热门跟贴