来源:市场资讯

(来源:机器之心)

机器之心发布

最近一两年,AI 行业有一个很微妙的变化:大家不再满足于问 “模型会不会回答”,也不再只关心 “Agent 能不能调用工具”。越来越多的讨论开始回到一个更终极的问题:AI 到底能不能完全自动化接管工作区,理解个性化需求,像一个真实的人类劳动力一样,把一件事情从头到尾做完?

这个问题并不新。过去,每一轮模型升级都会带来一批令人惊艳的 Demo:写代码、做 PPT、总结文档、整理会议纪要,甚至在浏览器中代替人完成流程。然而,一旦将其放入真实的个人或企业工作流中,差距很快显现出来:Demo 中的 AI 像一个聪明的助手,真实工作中的 AI 却常常像一个健忘、不了解组织上下文的新同事。以图中的案例为例,许多 Agent 表面上能够 “完成表格”,但实际结果中仍存在结构错误、统计偏差、关键字段缺失等问题。

相关链接:https://huggingface.co/Workspace-Bench
打开网易新闻 查看精彩图片
相关链接:https://huggingface.co/Workspace-Bench

我们在分析飞书内部 100+ 个真实案例后发现,当前 Agent 已经进入大量工作流,但大多数仍停留在 “行动层”,比如写一段话、打开一些文件。它们可以执行任务,却难以理解任务背后的真实工作世界。其中一个关键挑战是,当一个任务背后有一整套长期积累的工作空间时,AI 能不能知道该看什么、信什么、忽略什么,以及最后如何把这些材料组织成一个可交付的结果。

这也是我们在实践中越来越强烈感受到的转折:Agent 的下一站,不只是更强的模型,也不只是更强的 Agent Harness,而是生产力智能。

需求:从 “演示干活” 到 “进入岗位”

想象一个很普通的工作场景。你刚加入一个团队,老板对你说:“帮我整理一份明年全球产品策略报告。”

如果这是一个传统 AI 任务,用户可能会把三份材料上传给模型,并明确告诉它:“请基于这三份文件写一份报告。” 这时,AI 需要做的事情相对清楚:读取文件、抽取要点、生成文本。

但真实工作不是这样发生的。真实情况往往是,你面对的是一个团队多年沉淀下来的工作站:旧版方案、最终版方案、会议纪要、表格数据、客户反馈、邮件导出、PPT 草稿、竞品分析、临时截图、历史复盘,全都散落在不同目录、不同命名规则和不同版本里。更麻烦的是,很多关键关系并不会写在文件名里。某个图表可能来自三个月前的 Excel,某个结论可能来自一次没有归档好的会议,某个 “最终版” 旁边还躺着一个其实更新的 “final_v3”。

从这个角度看,我们真正需要的不是一个 “万能聊天机器人”,也不是一个能把工具链串起来的自动化脚本,而是一种新的生产力单位:它要拥有自己的工作站,理解岗位职责,能够面对任务目标自主探索、持续学习,并以可验证的方式交付结果。我们把这种形态称为赛博员工。

这就是 Workspace-Bench 试图揭示的问题。它不是为了再造一个 “谁分数更高” 的榜单,而是把 AI Agent 放回真实员工的办公环境中,测试它们是否具备一种更接近生产现场的能力:Workspace Learning,工作空间学习。

工作空间学习,指的是 AI Agent 能够在复杂工作空间中识别、推理、利用并更新异构文件之间显性与隐性的依赖关系,从而完成日常和进阶工作任务的能力。

打开网易新闻 查看精彩图片

https://workspace-bench.github.io/leaderboard.html

现状:今天的 Agent 技术,哪些能适配赛博员工,哪些还不能

过去我们谈 Agent,常常强调模型之外的系统能力。一个 Agent Harness 会给模型接上工具、记忆、文件系统、浏览器、MCP、状态管理和多步执行能力。它让 AI 不只是 “说”,也能 “做”。近年的 Agent Harness 已经把 AI Agent 的操作范围大幅扩展到模型推理之外:连接外部工具与 MCP,维护任务状态和长期记忆,编排多步执行,加入安全边界,并支持系统性评估机制。这些能力使 Agent 能够减少人类在日常任务甚至高级任务中的重复劳动。

Workspace-Bench 1.0 选择了一个很有挑战性的切口:不再把 Agent 放在干净、预设、单文件的任务里,而是构建五类真实工作角色的工作空间,覆盖运营经理、物流经理、产品经理、后端开发和研究员等画像;整个环境包含 20,476 个文件、74 种文件类型、3,299 个目录,最大目录深度达到 8,最大单个工作站包含 11,020 个文件。

打开网易新闻 查看精彩图片

它围绕 388 个带有文件依赖图的任务进行评测,并设计了 7,399 条细粒度 rubric,平均每个任务需要解析 5.1 条依赖边、跨越 4.7 个不同文件,并接受 19.1 条评价标准检验。这种评测方式不只看最终答案是否像样,还看 Agent 是否找对了源文件,是否理解了文件之间的关系,是否使用了正确版本,是否遵循了任务所需的依赖结构。

这与真实办公非常接近。现实里,一个报告写得漂亮但数据源错了,比报告写得朴素更危险;一个策略建议语言流畅但证据链断了,反而会放大组织风险。

一个代表性任务很有意思:运营经理需要生成一份全球市场产品策略报告。任务要求 Agent 遍历全球市场数据,比较 USCA、Asia Pacific、Europe、LATAM、Africa 五个市场的销售额和利润率,分析不同产品类别在不同市场的盈利能力,评估物流成本对利润的影响,比较客户细分贡献,并最终生成 `Global_Product_Strategy.md`。这看起来像一个 “写报告” 的任务,但实际上它要求 Agent 找到 9 个核心文件,连接订单 CSV、物流 PDF、产品信息 Excel、客户分层表、销售计划 PDF 等多源材料,并通过 25 条 rubric 验证基础交付、结果正确性和过程正确性。

这不是传统意义上的 “总结文档”,而是一次小型的数字办公室试炼。Agent 必须自己完成一件真实员工每天都在做的事:从散乱材料中恢复工作脉络,从多源证据中形成判断,再把判断组织成可交付成果。

实验结果也说明了差距的结构性。Workspace-Bench-Lite 上,各类 Agent 配置的总体通过率约在 27% 到 60% 之间,平均约 45.1%,明显低于人类专家配合工具的 80.7%。在完整统计中,跨 27 种 Agent Harness 与 Foundation Model 组合的平均 Rubrics Pass Rate 约为 43.3%,最佳组合接近 60%,但仍与人类加工具存在显著差距。

打开网易新闻 查看精彩图片

更值得关注的是,难度越接近真实工作,Agent 的性能下降越明显。论文显示,任务从 Easy 到 Medium 再到 Hard,平均通过率从 51.4% 降到 46.0%,再降到 35.7%。Easy 任务往往只是较简单的多文件总结或单文件修改;Hard 任务则引入文件关系发现、长程规划、状态跟踪和错误恢复。换句话说,Agent 不是不会动手,而是一旦进入真实工作站的复杂依赖网络,就很容易迷路。

其中最有启发的一点,是论文对依赖图识别的分析。Agent 的 Node F1 通常高于 Edge F1,说明它们相对更容易找到 “哪些文件可能相关”,但更难判断 “这些文件之间到底是什么关系”。这其实非常符合我们的实践经验:今天的 Agent 常常能搜到一堆材料,却不知道哪个是源数据,哪个是派生报告,哪个是历史版本,哪个只是背景约束。

这就是赛博员工与普通 Agent 的分界线。普通 Agent 只要找到材料,就可以开始生成;赛博员工必须先理解材料之间的关系,再决定如何生成。

阶段

关注点

典型表现

核心局限

大模型助手

生成与问答

写作、总结、翻译、解释

依赖用户把上下文喂干净

Agent Harness

工具与执行

调用工具、操作文件、多步完成任务

更像“会干活的人”,但未必理解角色

赛博员工

工作站与职责

能在复杂 workspace 中寻找材料、理解依赖、完成交付

需要长期适应组织语境

生产力智能

角色与规模化

面向不同岗位和典型任务形成可复制能力

难点在工作站、角色和任务的规模化扩展

Scaling :从模型参数到提供的工作世界本身

今天行业讨论 Scaling,很多时候仍然围绕模型本身展开:更大的参数、更长的上下文、更强的推理、更低的 token 成本。这些当然重要,但它们并没有完全回答企业生产力的问题。

我们从实践中看到,后面真正需要规模化扩展的,未必是 Agent 本身或模型本身,而是三个更难但更关键的对象。

第一,是工作站的规模。真实企业不是一个干净的 benchmark 文件夹,而是成千上万个不断变化的 workspace。每个团队的文件结构、命名习惯、权限边界、历史遗留和业务语义都不同。AI 如果只能在单个被整理好的文件包里工作,它就很难进入真实组织。

第二,是提供的角色的规模。企业需要的不是一个泛化的 “万能 Agent”,而是一组能够承担具体职责的角色:运营经理、产品经理、物流经理、后端负责人、研究员、销售、财务、HR、法务。每个角色都有不同的目标函数、证据标准和交付格式。让 AI 从 “执行工具” 变成 “岗位角色”,本身就是一次更复杂的工程化挑战。

第三,是各种典型生产力工作的规模。企业真正关心的不是 AI 能否完成一次炫技任务,而是能否稳定覆盖周报生成、客户分析、项目复盘、策略报告、数据核对、合规审查、需求整理、进度跟踪等高频任务。这些任务往往不难描述,却很难稳定交付,因为它们高度依赖组织上下文和跨文件证据链。

这三件事都非常难 Scaling。它们不像模型参数那样可以通过统一的训练流程线性推进,也不像单个 Agent Demo 那样可以靠精心设计的场景展示效果。它们要求 AI 系统真正理解企业里的 “工作世界”:文件如何产生,信息如何流转,角色如何协作,任务如何沉淀为流程。

生产力智能涌现

过去谈 AI 涌现,行业常常把它理解为模型能力突变:模型规模达到某个临界点,突然出现更强的推理、规划、编码或多模态理解能力。这种涌现仍然重要,但它不是生产力智能的全部。

在生产力场景里,我们需要一个新的定义:生产力智能的涌现,是当模型、Agent Harness、工作站结构、角色语境、任务反馈和组织流程形成闭环后,系统在真实工作中表现出稳定、可复用、可扩展交付能力的过程。

打开网易新闻 查看精彩图片

这个定义有三个关键变化。

第一,涌现的驱动力不完全来自模型。更强模型当然能提升上限,但论文结果显示,同一模型在不同 Harness 下会呈现不同的能力分布,而同一 Harness 在不同模型上也会出现显著差异。尤其在 Hard 任务中,性能下降来自模型推理能力与 Harness 编排约束的双重作用。这说明,生产力智能不是单点模型能力,而是系统组合能力。

打开网易新闻 查看精彩图片

第二,涌现的驱动力也不完全来自 Agent 技术本身。Harness 可以让 AI 更会行动,但如果它不能理解工作站中的文件血缘、语义依赖和任务支撑关系,就会陷入 “动得很多,但做得不准” 的状态。高交互轮次和高 token 消耗并不必然带来高质量结果。某些配置会产生 40 到 60 轮交互、消耗大量 token,却只能停留在 30% 到 45% 的准确率区间。相反,更高效的系统能够用更少交互轮次找到关键证据,体现出更强的推理效率。

打开网易新闻 查看精彩图片

第三,涌现可能源于工作站本身的变革。当工作站不再只是文件存储,而是成为一种可被机器理解、可被角色继承、可被任务验证的生产力环境时,AI 的能力边界会发生变化。它不再只是 “访问文件”,而是在一个结构化、带有血缘、权限、反馈和评价机制的工作世界中学习如何工作。

结语:下一代 AI 竞争,是争夺生产力智能的基础设施

过去,AI 产品常常从 “能力” 出发:能写作、能画图、能检索、能 coding、能调用工具。但未来,真正能够进入企业生产系统的 AI 产品,必须从 “工作” 出发:一个角色每天要完成什么任务?需要访问哪些工作站?如何识别文件之间的关系?如何发现缺失信息、修复错误、检查版本,并在多人协作中留下可追溯的证据链?

这正是当前 Agent 的核心瓶颈。许多 Agent 本质上仍是 request-response system:用户提出指令,它在 prompt 边界内执行动作。但真实员工更接近 outcome-responsible system:老板只提出目标,员工会主动补齐数据、核对上下文、预判风险,并对最终交付负责。因此,赛博员工与普通 Agent 的核心分层,不在于是否能够调用工具,而在于是否能够将目标转化为可靠交付。普通 Agent 更多是把指令转化为动作,赛博员工则需要把目标转化为结果。

从 Agent 到生产力智能的范式迁移,并不容易。工作站的规模、角色的规模、典型生产力工作的规模,都可能构成新的 scaling-up 问题。但也正因为难,它才是 AI 真正进入工作世界的潜在关键。

参考内容:

《Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies》 https://arxiv.org/pdf/2605.03596