来源:市场资讯
(来源:科技行者)
这项由上海交通大学与字节跳动联合发起、并有麻省理工学院、清华大学等多家机构参与的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.03596v1。研究团队构建了一个名为Workspace-Bench的基准测试体系,专门用来评估AI智能体在真实办公室文件环境中的实际表现。
每个在公司上班的人,桌面上或电脑里大概都有一个乱糟糟的文件夹。合同、邮件、表格、草稿、旧版本、新版本、别人发来的PDF、自己做的PPT……这些文件彼此之间有着千丝万缕的联系,有的是同一份报告的不同修改版本,有的是某张表格的数据来源,有的是一封讨论某个方案的邮件。当你需要整理出一份年终总结或者一个提案的时候,你必须在这些文件里翻来翻去、前后对照、综合判断。
现在,AI助手越来越流行,很多人寄希望于让它替自己处理这类繁琐的工作。问题是,现在的AI真的能胜任吗?面对一个真实的、乱糟糟的办公室文件系统,它能找到对的文件,理解文件之间的关联,然后把任务漂亮地完成吗?这正是这项研究想要回答的问题。
研究团队的发现是:现有的AI智能体距离真正胜任这类工作,还差得相当远。在他们设计的测试中,表现最好的AI组合得分只有68.7%,而人类专家借助工具完成同样任务的得分是80.7%。更令人警醒的是,28种不同AI配置的平均得分只有47.4%——也就是说,平均而言,有超过一半的评分要点是AI没能完成的。
一、为什么旧的测试方法都是"假题"
要理解这个研究的价值,得先明白一个问题:在此之前,研究者们是怎么测试AI的?
大部分已有的测试,其实都把任务简化得太厉害了。有的测试只是把所有信息都写在一段提示词里,直接塞给AI,让它回答问题。这就像一道填空题,把答案需要的所有材料都放在题目旁边,AI只需要读题、找答案。但真实的工作不是这样的——你不会有人专门帮你整理好所有文件、贴上标签、递到手边。
还有一类测试稍微进了一步,会给AI几个相关文件,让它从中提取信息。但这还是经过"预先打包"的,就好像老师在考试前帮你圈出了考点,AI不需要自己去翻整个文件柜。
最接近真实的那类测试,比如OfficeBench和TheAgentCompany,会给AI一个更完整的文件系统,让它自己去操作。但这些测试也有明显的局限:支持的文件格式通常不超过十种,文件系统的结构比较单一,而且最重要的一点是,它们并没有明确要求AI理解文件之间的依赖关系——也就是说,即使AI只看了一个文件就给出了答案,测试也未必能发现它忽略了其他关键文件。
研究团队把这个关键缺失总结为:现有测试缺乏对"文件依赖关系"的评估。在真实工作中,很多任务需要你同时理解多个文件的内容,理解它们之间的关联,才能给出正确答案。而这恰恰是现有AI最薄弱的地方。
二、一个更像真实办公室的测试场
为了填补这个空白,研究团队从零开始搭建了Workspace-Bench。这个测试场的规模相当惊人。
研究团队为五种典型的公司职员角色构建了各自的文件系统:运营经理、物流经理、AI产品经理、后端开发工程师和研究员。为什么选这五种?因为这五种角色代表了公司里截然不同的工作方式和文件习惯。开发工程师的文件夹里有大量代码文件和配置文件,研究员的文件夹里有论文、数据集和实验记录,而运营经理的文件夹里则是大量表格、报告和邮件往来。
五个角色的文件系统加在一起,共有20476个文件,总大小最高可达20GB,涵盖74种不同格式的文件。这74种格式包括了几乎所有你在真实办公室里可能见到的东西:Word文档、Excel表格、PDF报告、Markdown笔记、Python脚本、YAML配置文件、邮件文件、数据集文件,甚至还有图片和演示文稿。文件夹的嵌套深度最深达到8层,平均深度也有3.7层,这意味着AI不能指望"一眼看到底",它必须真正地在文件系统里导航和搜索。
文件的组织方式也刻意模仿了真实工作场景的"混乱感":里面有冗余的文件夹、命名模糊的目录、以及同一份文档的多个历史版本(比如report_v1、report_reviewed、report_final)。这种"噪音"是真实工作环境的正常状态,但对AI来说是一个巨大的挑战。
在这个文件系统的基础上,研究团队精心设计了388个任务。这些任务不是研究者自己凭空想出来的,而是来自字节跳动内部真实工作场景的收集和提炼——研究团队通过问卷调查收集了真实的工作流程案例,然后由领域专家筛选和转化。每个任务都是一个自然语言描述的请求,比如"整理本周所有物流记录,生成一份汇总报告",或者"根据公司历史销售数据和区域客户档案,制定明年的全球市场产品策略"。
每个任务都有一张"文件依赖图"——明确标注了完成这个任务必须用到哪些文件、这些文件之间有什么关系。平均每个任务需要用到4.7个不同的文件,涉及5.1条文件之间的依赖关系。任务的难度分为三级:简单任务主要考查基本的文件浏览和信息汇总;中等任务需要理解文件的语义关联;困难任务则要求AI处理多种格式的文件并追踪版本历史。
评分方式也比以往测试细致得多。388个任务共设计了7399条评分标准,平均每个任务有19.1条。这些评分标准分为三类:结果类评分检查最终输出是否正确和完整,基础类评分检查文件命名和格式是否符合要求,过程类评分则检查AI在解题过程中是否找对了文件、用对了版本。这种"过程也计分"的设计,使得即便AI侥幸得出了正确答案,研究者也能发现它是否走了弯路。
三、被评测的AI选手们
研究团队选取了4个"智能体框架"(可以理解为AI完成任务的不同"工作方式")和7个基础语言模型,组合成28种配置进行测试。
4个智能体框架分别是OpenClaw、ClaudeCode、DeepAgent和Hermes。这四种框架各有特点,工作方式也不同。OpenClaw采用了一种双循环架构,把高层次的规划和底层的工具操作分开处理,不容易在长任务中迷失方向。ClaudeCode来自Anthropic公司,深度集成了文件系统操作能力,还能在上下文快满时自动压缩历史信息。DeepAgent基于LangChain开发,工作流程高度透明、可控,每一步都有迹可查。Hermes则是一个带有"自我学习"能力的框架,它能把每次任务中踩过的坑记录下来,以便下次避免同样的错误。
7个基础语言模型覆盖了当前业界的主流选手:Opus-4.7(Anthropic)、GLM-5.1(智谱AI)、MiniMax-M2.7、Seed-2.0-Code(字节跳动)、GPT-5.4(OpenAI)、Gemini-3.1-Pro(Google)和Kimi-2.5(月之暗面)。
四、测试结果:AI在这场考试里的真实成绩单
整体成绩出炉时,结果令人清醒。28种配置的平均通过率只有47.4%,而人类专家借助工具完成同样任务的通过率是80.7%,两者相差超过33个百分点。表现最好的是OpenClaw搭配Opus-4.7的组合,通过率接近69%;紧随其后的是ClaudeCode搭配Opus-4.7和Hermes搭配Opus-4.7。排在前三的配置,清一色都用了Opus-4.7这个基础模型。而排名靠后的组合,比如DeepAgent搭配Gemini-3.1-Pro和Hermes搭配Gemini-3.1-Pro,通过率跌破30%。
任务难度对成绩的影响非常显著。在简单任务上,所有配置平均能达到57.6%的通过率;中等难度任务降到49.2%;到了困难任务,平均通过率只剩下40.5%。这个下滑趋势并不令人意外,但下滑的幅度和规律性,验证了研究者对任务难度分级设计的合理性。
更有意思的是,在简单任务上,哪个框架并不重要——用同一个基础模型、不同框架,成绩差不多。但在困难任务上,框架的选择就开始产生明显差异了。困难任务需要AI同时做到:找出相关文件(包括通过任务线索推断哪些文件可能有用)、规划一个复杂的多步骤执行方案、追踪中间过程的状态、并且在出错时能及时调整。这时候,框架的调度能力就显得至关重要了。
研究团队还专门分析了六个维度上的能力表现。这六个维度分别是:工作区浏览(能不能在文件系统里找到路)、任务支撑文件的识别(能不能找到提供背景信息的文件)、结果文件的整合(能不能找到包含直接答案的文件)、文件版本追踪(能不能区分同一文件的不同版本)、语义内容关联理解(能不能理解文件内容之间的逻辑联系)和异构文件理解(能不能读懂不同格式的文件)。
结果显示,几乎所有AI在工作区浏览方面表现相对较好,因为这只需要执行一些基本的文件系统命令。结果文件的整合也相对不差,因为这主要依赖语言模型本身的推理能力。然而,异构文件理解和文件版本追踪这两个维度是普遍的薄弱环节。读懂一份PDF里的图表、理解一个Excel里的复杂公式、或者判断三个版本的文档中哪个才是最新的有效版本——这些对人类来说相当自然的操作,对现有AI来说却困难重重。
五、用钱买不来的高分:效率与成绩的关系
研究发现了一个反直觉的现象:让AI做更多步骤、消耗更多算力,并不一定能带来更好的成绩。
研究团队记录了每个配置完成每个任务平均需要多少轮对话交互,以及消耗多少token(可以理解为AI"阅读"和"生成"文字的数量,直接与使用成本挂钩)。结果发现,ClaudeCode搭配Opus-4.7和Hermes搭配Opus-4.7这两个顶级配置,平均只需要不到20轮交互,token消耗也处于较低水平,但却拿到了最高的成绩。它们的高效,来自于一开始就能准确理解任务意图、直接找到正确的文件和方法。
相反,DeepAgent搭配Opus-4.7虽然同样取得了接近67%的高分,但它平均需要将近60轮交互,消耗的token数量也是前者的数倍。更典型的反例是DeepAgent搭配Gemini-3.1-Pro和Hermes搭配Gemini-3.1-Pro这类组合:它们的交互轮数高达40到60轮,token消耗巨大,但最终成绩却只在30%到45%之间徘徊。这说明,当基础语言模型的推理能力不足时,AI会陷入反复重试的循环——不断尝试无效的操作,却无法从错误中找到正确方向,白白消耗大量资源。
六、不同职业角色,AI的表现也大相径庭
五种职业角色对应的工作空间,AI的表现差异相当明显。
后端开发工程师和研究员这两个角色的任务,AI完成得相对较好。原因不难理解:这两种角色的工作高度依赖结构化的代码和数据,而现有AI恰恰在代码相关任务上训练得最充分。ClaudeCode搭配Opus-4.7在研究员角色上的得分接近80%,部分原因就是ClaudeCode本身就是为代码和研究类任务优化设计的。
而AI产品经理和运营经理这两个角色的任务,AI表现明显较弱。这两种角色需要处理大量语义模糊的商业文件,进行策略判断和资源规划,理解非结构化的语言表述。这些能力对AI来说更难习得。有趣的是,Hermes框架在产品经理角色上的相对表现最好,研究者认为这与Hermes处理开放性语义交互的能力更强有关。
七、人类与AI的差距究竟在哪里
研究团队还专门招募了20位领域专家,以"人类借助AI工具"的方式完成同样的任务,作为对照基准。结果显示,这种"人机协作"模式的通过率达到80.7%,全面超越纯AI自动完成的所有配置。
更值得关注的是,人类专家在不同难度任务上的表现相当稳定——简单任务78.4%,中等任务81.2%,困难任务80.4%,几乎没有因为任务变难而出现明显下滑。相比之下,AI的成绩从简单到困难有一个明显的台阶式下降。
研究者认为,这种稳定性来自于人类天然具备的一种能力:理解文件之间隐含的关系,并灵活地利用这些关系来解决问题。当你看到一个文件名叫"Q3_sales_report_final_revised_v3.xlsx"的时候,你不需要读完它就能判断它可能是最新版本;当你看到一封邮件提到了某个方案文档,你会自然地去找那份文档。这种基于常识和上下文的判断,目前的AI仍然难以复制。
八、AI工作助理进化的五个阶段
基于这些发现,研究团队提出了一个颇具参考价值的框架,描述了AI在处理工作文件方面可能经历的五个进化阶段。
第一阶段是"数据不敏感执行"——AI只是一个顾问,它给出建议,但所有实际操作都由人来完成,AI对文件内容几乎不关心。第二阶段是"按指定文件执行"——用户必须明确告诉AI要读哪个文件,AI才能处理,它把每个文件当作独立的个体,不理解文件之间的联系。这个阶段描述的是很多现有GUI操作型AI助手的状态。
第三阶段是"文件到文件的依赖推理"——AI能够在用户给出的文件范围内,自己推断出哪些文件之间有关联,并据此完成任务。这是当前最好的AI系统正在努力达到的水平。研究者将这个阶段的关键转折点称为"编排奇点"——在这个点之后,框架的贡献开始超过基础语言模型本身对任务成功的贡献。
第四阶段是"任务到文件的依赖发现"——AI不需要用户提供文件,它能自主地在整个工作空间里探索,根据任务描述找到所有相关文件。研究者将这个阶段的达成称为"能力奇点"。当前的测试数据表明,AI在朝这个方向努力的过程中,成绩会持续下降——困难任务的通过率比简单任务低了17个百分点,正是这个"自主探索"能力尚未成熟的体现。
第五阶段是"工作区原生自进化"——AI不再只是处理任务,而是在每次完成任务的过程中持续学习和适应,自动将新工具、新文件类型纳入自己的能力范围。当你的电脑上装了一个新软件,AI能自动发现并学会使用它。
研究者指出,从第三阶段开始,框架的调度能力变得比基础模型更关键。而在第三和第四阶段之间,存在一个他们称之为"数据关联鸿沟"的根本性障碍——现有AI在孤立处理单个文件方面还不错,但在自主理解文件之间的网状依赖关系方面存在系统性缺陷。跨越这道鸿沟,需要从根本上重新设计AI框架发现、表示和利用文件依赖关系的方式。
九、AI犯错时,它在哪里出了差错
研究团队还对失败案例进行了系统分析,将错误分为五类。
最常见的错误类型是"内容遗漏"——AI给出的答案漏掉了关键信息,通常是因为它没有找到某个重要的文件,或者读了文件但没有提取出其中的关键数据。第二常见的是"推理错误"——AI找到了正确的文件,但在统计、计算、排序或跨文件数据关联时出了差错,给出了错误的数字或结论。
相比之下,"格式错误"(输出格式不对)和"过程错误"(执行步骤有问题)的比例很小,说明现有AI在遵守基本的格式要求和执行操作流程方面已经相当成熟。真正的瓶颈在于信息的全面召回和跨文件的数据整合。
说到底,这项研究告诉我们一件相当直白的事:现在的AI助手,在面对一个真实的、乱糟糟的办公室文件系统时,表现远没有我们期待的那么好。它能完成一些基础工作,但一旦任务变得复杂——需要在几十个文件里找线索、理解文件版本关系、读懂不同格式的内容、把零散的信息整合成一个连贯的答案——它就开始频繁出错。
这对于希望用AI提升工作效率的人来说,意味着现阶段最合理的方式仍然是"人机协作":让AI处理它擅长的部分(执行明确的操作、整理结构化数据),而由人负责判断哪些文件重要、文件之间有什么隐含联系、以及最终结论是否合理。完全依赖AI自动完成复杂工作流,目前来看还不可靠。
这项研究另一个有价值的地方在于它搭建了一个可重复的测试环境。有了Workspace-Bench这套测试体系,未来的研究者和开发者可以用同一把尺子来衡量AI的进步,而不是各自做各自的测试、互相无法比较。这对于整个AI助手领域的迭代来说,是一块重要的基础设施。
如果你对这项研究的完整细节感兴趣,包括388个任务的详细设计、各种AI配置的完整成绩单,以及五阶段进化框架的完整论述,可以通过arXiv编号2605.03596查阅原始论文。
Q&A
Q1:Workspace-Bench和OfficeBench这类已有测试相比,主要区别是什么?
A:Workspace-Bench的核心区别在于它模拟了真实的、杂乱的办公室文件系统,而不是提前整理好的任务文件包。它支持74种文件格式、最多11020个文件,并且明确测试AI能否识别文件之间的依赖关系——比如版本追踪和跨文件内容关联。已有测试通常只给AI几个相关文件,不需要AI自己去搜索和判断哪些文件重要。
Q2:Workspace-Bench测试中,AI表现最差的能力是哪两个?
A:表现最差的是"异构文件理解"和"文件版本追踪"。异构文件理解指的是读懂不同格式文件的内容,比如PDF里的图表或Excel里的复杂公式。文件版本追踪是指区分同一文件的不同历史版本,判断哪个才是最新有效的版本。这两项能力在所有28种AI配置中都普遍偏低,是当前AI系统的系统性短板。
Q3:Workspace-Bench里说的"文件依赖图"是什么意思?
A:文件依赖图是为每个任务标注的一张关系图,明确说明完成这个任务必须用到哪些文件、这些文件之间有什么关系。比如,一份最终报告依赖于三个原始数据表格,而其中一个表格又引用了另一个分析文档。这张图让评测系统可以检查AI是否真的找到并使用了所有必要的文件,而不是仅凭运气猜到了正确答案。
热门跟贴