ChatGPT、Manus、Genspark哪家强？红杉中国xbench出了考卷

AI异类

2026-01-21 21:38 ·北京 ·优质科技领域创作者

最近，红杉中国 xbench 在行业里有不少动作，连发两篇Agent有关的论文。

老朋友应该都知道，xbench是红杉中国推出的一款AI基准测试，用来量化AI系统在真实场景的效用价值，采用的是长青评估机制。

xbench想在市面上鱼龙混杂的“刷榜”、“野榜”、“纸面数据”之外，建立起一套评价标准，更好地衡量 AI 模型在真实业务场景中，解决复杂问题的能力。

印象中的投资机构，亲自下场参与模型能力测评以及技术标准定义的，不算多。
而在AI新技术范式影响下的VC，似乎已经有了新的组织形态，以及在新组织形态上长出来的技术理解和成果。
记得xbench刚发布的时候，我的理解还停留在大模型测评集的阶段，感觉是投资人为了追求更精准的判断力，主动打造的一手实验数据。
现在再看，红杉中国对AI模型能力边界和Agent发展路线的理解，不亚于一线的技术型公司。

所以，别以为投资人不懂技术、很好忽悠了。
我甚至有种恐慌，也许有一天，头部基金，用Venture Studio等形式，亲自下场做产品也很正常。
听说已经有了。
难道下一个字节跳动，会是投资人在投资机构里，自己vibe coding出来的吗？
说不定真的有可能。

https://xbench.org/

具体说说这两篇论文是咋回事。

上周，xbench 联合 UniPat AI 发布了 BabyVision，一个专注于纯视觉理解能力的评测集。

它讨论的主题很明确：在世界模型和视觉多模态这条路上，模型的潜力远没有被完全释放。

那套评测并不急着给模型打分，更像是在提醒行业，未来的能力增长，很可能来自对真实世界结构的重新理解。

这一周，xbench 又向前推了一步。

这一次，关注点从「看懂世界」转向了「把一天过完」。

https://xbench.org/agi/agentif

AgentIF-OneDay 的出现，标志着 Agent 评测从短时、单点、封闭任务，正式进入长时、复杂、全场景的现实尺度。

它试图回答一个简单又残酷的问题：如果把人类一天的任务量完整交给一个 Agent，它能否在没有人工介入的情况下，把事情真正做完。

在当前的行业语境下，这个问题比任何排行榜都更重要。

01.当单点能力接近 PhD，Agent 的短板开始暴露

过去一年，大模型在单点推理任务上的进步已经非常明显。

无论数学、代码，还是知识密集型问答，分钟级任务的完成质量已经逼近人类高水平专家。

ScienceQA、DeepSearch 这类评测的多次升级，也不断拉高着模型的上限。

问题出现在时间被拉长之后。

一旦任务复杂度超过普通人一小时可以处理的范围，Agent 的整体完成度会出现明显下滑。

这种下滑并不体现在某个步骤做错，而是体现在全过程的失控：上下文断裂、中间目标丢失、工具调用前后不一致、隐含约束被忽略，最终导致任务在形式上完成，实质上失败。

这道鸿沟的存在，让「Agent 已经很强」与「Agent 还不能真正替你工作」这两种判断同时成立。

xbench 在这一阶段选择引入 AgentIF-OneDay，本质上是一次尺度的重构。

评测的核心不再是模型知道多少知识，也不只是能否完成某个高难度推理点，而是把注意力转向一个更贴近现实的问题：完成一个任务，需要消耗多少人类时间，这个时间背后，对应着怎样的经济价值。

02.用「人类一天」重新定义 Agent 的能力边界

AgentIF-OneDay 背后的一个关键判断，是将任务复杂度与知识深度解耦。

在传统评测中，复杂度往往意味着推理链更长、知识点更冷门、逻辑结构更精巧。

但在真实工作中，复杂度更多来自时间和协同成本。一个任务并不一定难，却可能极其耗时，需要反复确认信息、切换工具、处理格式、校验结果，还要在过程中持续保持目标一致。

xbench 提出了两个决定 Agent 能力上限的轴线：scaling context 与 scaling domain。

前者关注时间维度。

Agent 是否能在更长的执行周期中维护上下文状态，记住中间结果，遵守先前的约束，在多步骤、多工具的交互中保持一致性。

从分钟级，到小时级，再到一天级，这是一个对稳定性和记忆管理要求极高的过程。

后者关注任务分布。

现实世界的工作很少是单一领域的连续推理，而是跨 domain、跨格式、跨语境的混合任务。

目标表述往往不完整，约束隐藏在附件里，评估标准随场景变化。

Agent 能否覆盖更广泛的任务类型，决定了它是否具备真正的通用性。

AgentIF-OneDay 正是沿着这两条轴线展开设计。它把评测的时间尺度推进到 OneDay，同时覆盖生活、学习与职业等多个高频场景，试图描绘出当前 Agent 在真实世界任务分布中的能力轮廓。

03.把一天拆开，工作流、范例与迭代才是真实世界

在构造评测任务之前，xbench 分析了大量用户的真实工作日志。

一个有意思的发现是，具体内容千差万别，但任务结构高度稳定。

大多数人的一天，可以被抽象为三种类型。

第一类是工作流执行。

用户清楚知道该做什么，步骤明确，难点集中在执行的繁琐性和信息校验上。

以 NeurIPS 行程规划为例，Agent 需要跨站点核验信息、收集时间节点、判断日程是否发布，再给出不同优化目标下的方案。

这类任务考验的不是创造力，而是耐心、准确性和流程一致性。

第二类是范例参考。

用户无法完整描述规则，只能提供示例或附件。换手机套餐的例子中，Agent 需要从文件中推断隐含条件，在显式指令与隐式约束之间做出平衡。

这是人类日常工作中最常见的模式，也是 Agent 走向内容生产、报告生成等职业型任务的前提。

第三类是迭代式编辑。

需求在过程中不断变化，约束逐步显现，解法并不预先存在。

更新会场布局的任务，要求 Agent 在多轮修改中保持上下文一致，同时遵守来自不同文件的硬性条件。这类任务对状态管理和长期一致性的要求极高。

AgentIF-OneDay 的 104 道任务，正是围绕这三种结构展开。

文件驱动的合成任务覆盖了 PDF、PPT、Excel、图像、代码等 15 种以上格式，模拟的正是现实工作中极为常见的跨来源、跨工具流程。

04.当评分变得细碎，Agent 的失误也无处可藏

为了避免「结果对了就算赢」的粗糙判断，AgentIF-OneDay 为每道任务设计了细粒度的评分标准，总计 767 个评分点。

这些评分点既包含正向指标，也包含负向指标。

格式是否一致、结构是否复现、步骤是否完整，会被逐一检查；误删内容、越界生成、错误操作，同样会被明确扣分。

评测系统采用 LLM 作为裁判，并结合网页检索、HTML 渲染、多模态比对等自动校验方式，尽量减少主观偏差。

在这套机制下，Agent 的得分不只取决于有没有完成任务，更取决于过程是否干净，是否正确解析附件，是否在迭代中保持一致。

评测结果也呈现出一些值得玩味的现象。

从整体任务成功率来看，Manus、Genspark 与 ChatGPT-Agent 集中在 0.62–0.65 区间，构成第一梯队。

不同技术路线的 Agent，在真实任务链上的体感差异并没有拉开数量级。

这在一定程度上印证了模型能力的重要性，在不引入 test-time scaling 的前提下，多智能体框架本身很难制造巨大差距。

从任务领域看，ChatGPT-Agent 更偏向专业生产力，Manus 在生活助手场景表现突出，Genspark 更适合学习型任务。

不同产品的迭代方向，决定了各自的长项与短板。

从能力维度看，Genspark 在隐式指令推断上表现最佳，Manus 在开放工作流执行中更稳定，Minimax-Agent 在迭代式编辑中优势明显。

隐式结构理解依然是当前 Agent 普遍的薄弱环节，尤其是在格式迁移和规则抽取任务中，完整正确的案例仍然罕见。

这些结果共同指向一个结论：稳定性、文件处理链路、隐式结构理解能力，以及跨工具的状态管理，才是决定 Agent 能否承担一天工作量的关键。

05.从OneDay到OneWeek，Agent的下一道门槛

在 AgentIF-OneDay 之后，xbench 已经开始构建 OneWeek 级别的评测集。

一周尺度的任务，带来的挑战并不仅仅是时间更长。

随着跨度增加，任务往往会自然嵌入具体行业语境，金融、医疗、法律等高价值场景的数据获取成本显著上升，rubric 的设计也会变得更加严格。

在这一阶段，依赖静态数据集和离线评测的方式开始显露局限性。

Agent 要想进一步提升，很难只靠训练时吃下更多人类知识，而需要在实际运行中不断修正行为。这也是近期 online learning 讨论升温的背景。

如果把长程 Agent 的发展类比自动驾驶，那么当前阶段更接近有限路段的辅助驾驶。

真正的 FSD 时刻，依赖于大量真实场景数据的积累。用户数据带来的场景多样性，是系统泛化能力的关键来源。

在 Agent 领域，同样的逻辑正在显现。谁能率先建立高质量的数据飞轮，谁就更有可能率先交付可靠的长程 Agent。

当 Agent 能够在一周尺度上稳定产出，它才真正具备进入组织、承担岗位、创造持续经济价值的资格。

AgentIF-OneDay 的意义，正在于此。

它并不宣告某个系统已经足够成熟，而是清晰地标出了下一段路的难度与方向。

最后，强烈大家去看看论文原文！

以及去红杉中国xbench的官网去看看，上面有各种各样的打分和排名，还有些好玩的小东西！

https://xbench.org/

AI一年，人间十年。

连投资人都这么努力，我们也多看些论文吧……

Paper Link:

https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf

website:

https://xbench.org/

github:

https://github.com/xbench-ai/AgentIF-OneDay

huggingface:

https://huggingface.co/datasets/xbench/AgentIF-OneDay

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴