上海交大与字节跳动：AI助手实现真实办公文件环境任务处理评估|pdf|workspace|上海交大|代码|字节跳动|知名企业|自然语言

来源：市场资讯

（来源：科技行者）

这项由上海交通大学与字节跳动联合发起、并有麻省理工学院、清华大学等多家机构参与的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.03596v1。研究团队构建了一个名为Workspace-Bench的基准测试体系，专门用来评估AI智能体在真实办公室文件环境中的实际表现。

每个在公司上班的人，桌面上或电脑里大概都有一个乱糟糟的文件夹。合同、邮件、表格、草稿、旧版本、新版本、别人发来的PDF、自己做的PPT……这些文件彼此之间有着千丝万缕的联系，有的是同一份报告的不同修改版本，有的是某张表格的数据来源，有的是一封讨论某个方案的邮件。当你需要整理出一份年终总结或者一个提案的时候，你必须在这些文件里翻来翻去、前后对照、综合判断。

现在，AI助手越来越流行，很多人寄希望于让它替自己处理这类繁琐的工作。问题是，现在的AI真的能胜任吗？面对一个真实的、乱糟糟的办公室文件系统，它能找到对的文件，理解文件之间的关联，然后把任务漂亮地完成吗？这正是这项研究想要回答的问题。

研究团队的发现是：现有的AI智能体距离真正胜任这类工作，还差得相当远。在他们设计的测试中，表现最好的AI组合得分只有68.7%，而人类专家借助工具完成同样任务的得分是80.7%。更令人警醒的是，28种不同AI配置的平均得分只有47.4%——也就是说，平均而言，有超过一半的评分要点是AI没能完成的。

一、为什么旧的测试方法都是"假题"

要理解这个研究的价值，得先明白一个问题：在此之前，研究者们是怎么测试AI的？

大部分已有的测试，其实都把任务简化得太厉害了。有的测试只是把所有信息都写在一段提示词里，直接塞给AI，让它回答问题。这就像一道填空题，把答案需要的所有材料都放在题目旁边，AI只需要读题、找答案。但真实的工作不是这样的——你不会有人专门帮你整理好所有文件、贴上标签、递到手边。

还有一类测试稍微进了一步，会给AI几个相关文件，让它从中提取信息。但这还是经过"预先打包"的，就好像老师在考试前帮你圈出了考点，AI不需要自己去翻整个文件柜。

最接近真实的那类测试，比如OfficeBench和TheAgentCompany，会给AI一个更完整的文件系统，让它自己去操作。但这些测试也有明显的局限：支持的文件格式通常不超过十种，文件系统的结构比较单一，而且最重要的一点是，它们并没有明确要求AI理解文件之间的依赖关系——也就是说，即使AI只看了一个文件就给出了答案，测试也未必能发现它忽略了其他关键文件。

研究团队把这个关键缺失总结为：现有测试缺乏对"文件依赖关系"的评估。在真实工作中，很多任务需要你同时理解多个文件的内容，理解它们之间的关联，才能给出正确答案。而这恰恰是现有AI最薄弱的地方。

二、一个更像真实办公室的测试场

为了填补这个空白，研究团队从零开始搭建了Workspace-Bench。这个测试场的规模相当惊人。

研究团队为五种典型的公司职员角色构建了各自的文件系统：运营经理、物流经理、AI产品经理、后端开发工程师和研究员。为什么选这五种？因为这五种角色代表了公司里截然不同的工作方式和文件习惯。开发工程师的文件夹里有大量代码文件和配置文件，研究员的文件夹里有论文、数据集和实验记录，而运营经理的文件夹里则是大量表格、报告和邮件往来。

五个角色的文件系统加在一起，共有20476个文件，总大小最高可达20GB，涵盖74种不同格式的文件。这74种格式包括了几乎所有你在真实办公室里可能见到的东西：Word文档、Excel表格、PDF报告、Markdown笔记、Python脚本、YAML配置文件、邮件文件、数据集文件，甚至还有图片和演示文稿。文件夹的嵌套深度最深达到8层，平均深度也有3.7层，这意味着AI不能指望"一眼看到底"，它必须真正地在文件系统里导航和搜索。

文件的组织方式也刻意模仿了真实工作场景的"混乱感"：里面有冗余的文件夹、命名模糊的目录、以及同一份文档的多个历史版本（比如report_v1、report_reviewed、report_final）。这种"噪音"是真实工作环境的正常状态，但对AI来说是一个巨大的挑战。

在这个文件系统的基础上，研究团队精心设计了388个任务。这些任务不是研究者自己凭空想出来的，而是来自字节跳动内部真实工作场景的收集和提炼——研究团队通过问卷调查收集了真实的工作流程案例，然后由领域专家筛选和转化。每个任务都是一个自然语言描述的请求，比如"整理本周所有物流记录，生成一份汇总报告"，或者"根据公司历史销售数据和区域客户档案，制定明年的全球市场产品策略"。

每个任务都有一张"文件依赖图"——明确标注了完成这个任务必须用到哪些文件、这些文件之间有什么关系。平均每个任务需要用到4.7个不同的文件，涉及5.1条文件之间的依赖关系。任务的难度分为三级：简单任务主要考查基本的文件浏览和信息汇总；中等任务需要理解文件的语义关联；困难任务则要求AI处理多种格式的文件并追踪版本历史。

评分方式也比以往测试细致得多。388个任务共设计了7399条评分标准，平均每个任务有19.1条。这些评分标准分为三类：结果类评分检查最终输出是否正确和完整，基础类评分检查文件命名和格式是否符合要求，过程类评分则检查AI在解题过程中是否找对了文件、用对了版本。这种"过程也计分"的设计，使得即便AI侥幸得出了正确答案，研究者也能发现它是否走了弯路。

三、被评测的AI选手们

研究团队选取了4个"智能体框架"（可以理解为AI完成任务的不同"工作方式"）和7个基础语言模型，组合成28种配置进行测试。

4个智能体框架分别是OpenClaw、ClaudeCode、DeepAgent和Hermes。这四种框架各有特点，工作方式也不同。OpenClaw采用了一种双循环架构，把高层次的规划和底层的工具操作分开处理，不容易在长任务中迷失方向。ClaudeCode来自Anthropic公司，深度集成了文件系统操作能力，还能在上下文快满时自动压缩历史信息。DeepAgent基于LangChain开发，工作流程高度透明、可控，每一步都有迹可查。Hermes则是一个带有"自我学习"能力的框架，它能把每次任务中踩过的坑记录下来，以便下次避免同样的错误。

7个基础语言模型覆盖了当前业界的主流选手：Opus-4.7（Anthropic）、GLM-5.1（智谱AI）、MiniMax-M2.7、Seed-2.0-Code（字节跳动）、GPT-5.4（OpenAI）、Gemini-3.1-Pro（Google）和Kimi-2.5（月之暗面）。

四、测试结果：AI在这场考试里的真实成绩单

整体成绩出炉时，结果令人清醒。28种配置的平均通过率只有47.4%，而人类专家借助工具完成同样任务的通过率是80.7%，两者相差超过33个百分点。表现最好的是OpenClaw搭配Opus-4.7的组合，通过率接近69%；紧随其后的是ClaudeCode搭配Opus-4.7和Hermes搭配Opus-4.7。排在前三的配置，清一色都用了Opus-4.7这个基础模型。而排名靠后的组合，比如DeepAgent搭配Gemini-3.1-Pro和Hermes搭配Gemini-3.1-Pro，通过率跌破30%。

任务难度对成绩的影响非常显著。在简单任务上，所有配置平均能达到57.6%的通过率；中等难度任务降到49.2%；到了困难任务，平均通过率只剩下40.5%。这个下滑趋势并不令人意外，但下滑的幅度和规律性，验证了研究者对任务难度分级设计的合理性。

更有意思的是，在简单任务上，哪个框架并不重要——用同一个基础模型、不同框架，成绩差不多。但在困难任务上，框架的选择就开始产生明显差异了。困难任务需要AI同时做到：找出相关文件（包括通过任务线索推断哪些文件可能有用）、规划一个复杂的多步骤执行方案、追踪中间过程的状态、并且在出错时能及时调整。这时候，框架的调度能力就显得至关重要了。

研究团队还专门分析了六个维度上的能力表现。这六个维度分别是：工作区浏览（能不能在文件系统里找到路）、任务支撑文件的识别（能不能找到提供背景信息的文件）、结果文件的整合（能不能找到包含直接答案的文件）、文件版本追踪（能不能区分同一文件的不同版本）、语义内容关联理解（能不能理解文件内容之间的逻辑联系）和异构文件理解（能不能读懂不同格式的文件）。

结果显示，几乎所有AI在工作区浏览方面表现相对较好，因为这只需要执行一些基本的文件系统命令。结果文件的整合也相对不差，因为这主要依赖语言模型本身的推理能力。然而，异构文件理解和文件版本追踪这两个维度是普遍的薄弱环节。读懂一份PDF里的图表、理解一个Excel里的复杂公式、或者判断三个版本的文档中哪个才是最新的有效版本——这些对人类来说相当自然的操作，对现有AI来说却困难重重。

五、用钱买不来的高分：效率与成绩的关系

研究发现了一个反直觉的现象：让AI做更多步骤、消耗更多算力，并不一定能带来更好的成绩。

研究团队记录了每个配置完成每个任务平均需要多少轮对话交互，以及消耗多少token（可以理解为AI"阅读"和"生成"文字的数量，直接与使用成本挂钩）。结果发现，ClaudeCode搭配Opus-4.7和Hermes搭配Opus-4.7这两个顶级配置，平均只需要不到20轮交互，token消耗也处于较低水平，但却拿到了最高的成绩。它们的高效，来自于一开始就能准确理解任务意图、直接找到正确的文件和方法。

相反，DeepAgent搭配Opus-4.7虽然同样取得了接近67%的高分，但它平均需要将近60轮交互，消耗的token数量也是前者的数倍。更典型的反例是DeepAgent搭配Gemini-3.1-Pro和Hermes搭配Gemini-3.1-Pro这类组合：它们的交互轮数高达40到60轮，token消耗巨大，但最终成绩却只在30%到45%之间徘徊。这说明，当基础语言模型的推理能力不足时，AI会陷入反复重试的循环——不断尝试无效的操作，却无法从错误中找到正确方向，白白消耗大量资源。

六、不同职业角色，AI的表现也大相径庭

五种职业角色对应的工作空间，AI的表现差异相当明显。

后端开发工程师和研究员这两个角色的任务，AI完成得相对较好。原因不难理解：这两种角色的工作高度依赖结构化的代码和数据，而现有AI恰恰在代码相关任务上训练得最充分。ClaudeCode搭配Opus-4.7在研究员角色上的得分接近80%，部分原因就是ClaudeCode本身就是为代码和研究类任务优化设计的。

而AI产品经理和运营经理这两个角色的任务，AI表现明显较弱。这两种角色需要处理大量语义模糊的商业文件，进行策略判断和资源规划，理解非结构化的语言表述。这些能力对AI来说更难习得。有趣的是，Hermes框架在产品经理角色上的相对表现最好，研究者认为这与Hermes处理开放性语义交互的能力更强有关。

七、人类与AI的差距究竟在哪里

研究团队还专门招募了20位领域专家，以"人类借助AI工具"的方式完成同样的任务，作为对照基准。结果显示，这种"人机协作"模式的通过率达到80.7%，全面超越纯AI自动完成的所有配置。

更值得关注的是，人类专家在不同难度任务上的表现相当稳定——简单任务78.4%，中等任务81.2%，困难任务80.4%，几乎没有因为任务变难而出现明显下滑。相比之下，AI的成绩从简单到困难有一个明显的台阶式下降。

研究者认为，这种稳定性来自于人类天然具备的一种能力：理解文件之间隐含的关系，并灵活地利用这些关系来解决问题。当你看到一个文件名叫"Q3_sales_report_final_revised_v3.xlsx"的时候，你不需要读完它就能判断它可能是最新版本；当你看到一封邮件提到了某个方案文档，你会自然地去找那份文档。这种基于常识和上下文的判断，目前的AI仍然难以复制。

八、AI工作助理进化的五个阶段

基于这些发现，研究团队提出了一个颇具参考价值的框架，描述了AI在处理工作文件方面可能经历的五个进化阶段。

第一阶段是"数据不敏感执行"——AI只是一个顾问，它给出建议，但所有实际操作都由人来完成，AI对文件内容几乎不关心。第二阶段是"按指定文件执行"——用户必须明确告诉AI要读哪个文件，AI才能处理，它把每个文件当作独立的个体，不理解文件之间的联系。这个阶段描述的是很多现有GUI操作型AI助手的状态。

第三阶段是"文件到文件的依赖推理"——AI能够在用户给出的文件范围内，自己推断出哪些文件之间有关联，并据此完成任务。这是当前最好的AI系统正在努力达到的水平。研究者将这个阶段的关键转折点称为"编排奇点"——在这个点之后，框架的贡献开始超过基础语言模型本身对任务成功的贡献。

第四阶段是"任务到文件的依赖发现"——AI不需要用户提供文件，它能自主地在整个工作空间里探索，根据任务描述找到所有相关文件。研究者将这个阶段的达成称为"能力奇点"。当前的测试数据表明，AI在朝这个方向努力的过程中，成绩会持续下降——困难任务的通过率比简单任务低了17个百分点，正是这个"自主探索"能力尚未成熟的体现。

第五阶段是"工作区原生自进化"——AI不再只是处理任务，而是在每次完成任务的过程中持续学习和适应，自动将新工具、新文件类型纳入自己的能力范围。当你的电脑上装了一个新软件，AI能自动发现并学会使用它。

研究者指出，从第三阶段开始，框架的调度能力变得比基础模型更关键。而在第三和第四阶段之间，存在一个他们称之为"数据关联鸿沟"的根本性障碍——现有AI在孤立处理单个文件方面还不错，但在自主理解文件之间的网状依赖关系方面存在系统性缺陷。跨越这道鸿沟，需要从根本上重新设计AI框架发现、表示和利用文件依赖关系的方式。

九、AI犯错时，它在哪里出了差错

研究团队还对失败案例进行了系统分析，将错误分为五类。

最常见的错误类型是"内容遗漏"——AI给出的答案漏掉了关键信息，通常是因为它没有找到某个重要的文件，或者读了文件但没有提取出其中的关键数据。第二常见的是"推理错误"——AI找到了正确的文件，但在统计、计算、排序或跨文件数据关联时出了差错，给出了错误的数字或结论。

相比之下，"格式错误"（输出格式不对）和"过程错误"（执行步骤有问题）的比例很小，说明现有AI在遵守基本的格式要求和执行操作流程方面已经相当成熟。真正的瓶颈在于信息的全面召回和跨文件的数据整合。

说到底，这项研究告诉我们一件相当直白的事：现在的AI助手，在面对一个真实的、乱糟糟的办公室文件系统时，表现远没有我们期待的那么好。它能完成一些基础工作，但一旦任务变得复杂——需要在几十个文件里找线索、理解文件版本关系、读懂不同格式的内容、把零散的信息整合成一个连贯的答案——它就开始频繁出错。

这对于希望用AI提升工作效率的人来说，意味着现阶段最合理的方式仍然是"人机协作"：让AI处理它擅长的部分（执行明确的操作、整理结构化数据），而由人负责判断哪些文件重要、文件之间有什么隐含联系、以及最终结论是否合理。完全依赖AI自动完成复杂工作流，目前来看还不可靠。

这项研究另一个有价值的地方在于它搭建了一个可重复的测试环境。有了Workspace-Bench这套测试体系，未来的研究者和开发者可以用同一把尺子来衡量AI的进步，而不是各自做各自的测试、互相无法比较。这对于整个AI助手领域的迭代来说，是一块重要的基础设施。

如果你对这项研究的完整细节感兴趣，包括388个任务的详细设计、各种AI配置的完整成绩单，以及五阶段进化框架的完整论述，可以通过arXiv编号2605.03596查阅原始论文。

Q&A

Q1：Workspace-Bench和OfficeBench这类已有测试相比，主要区别是什么？

A：Workspace-Bench的核心区别在于它模拟了真实的、杂乱的办公室文件系统，而不是提前整理好的任务文件包。它支持74种文件格式、最多11020个文件，并且明确测试AI能否识别文件之间的依赖关系——比如版本追踪和跨文件内容关联。已有测试通常只给AI几个相关文件，不需要AI自己去搜索和判断哪些文件重要。

Q2：Workspace-Bench测试中，AI表现最差的能力是哪两个？

A：表现最差的是"异构文件理解"和"文件版本追踪"。异构文件理解指的是读懂不同格式文件的内容，比如PDF里的图表或Excel里的复杂公式。文件版本追踪是指区分同一文件的不同历史版本，判断哪个才是最新有效的版本。这两项能力在所有28种AI配置中都普遍偏低，是当前AI系统的系统性短板。

Q3：Workspace-Bench里说的"文件依赖图"是什么意思？

A：文件依赖图是为每个任务标注的一张关系图，明确说明完成这个任务必须用到哪些文件、这些文件之间有什么关系。比如，一份最终报告依赖于三个原始数据表格，而其中一个表格又引用了另一个分析文档。这张图让评测系统可以检查AI是否真的找到并使用了所有必要的文件，而不是仅凭运气猜到了正确答案。