我们一直期待 AI 不只是“工具链的执行者”,而是真正能在陌生环境里自主理解、规划、行动的“主体”。

但越是接近这个愿景,越能感受到现实的落差——尤其当我们认真问一句,这些号称“通用”的 Agent,真的能在没有任何任务特化工程的情况下完成任务吗?

2 月 27 日,IBM Research 发布最新研究成果《General Agent Evaluation》,它提出统一协议、零特化原则、跨环境评测框架,并系统性地测试了五个主流 Agent 系统,揭示了一个残酷但真实的事实,在没有任务特化工程的情况下,所有系统的表现都显著下降。

IBM Research 成立于 1945 年,是全球最早的科技研究院之一。它的定位从来不是“做产品”,而是“做未来”。几十年来,它在计算机科学史上留下了大量里程碑式成果,从磁盘存储、关系数据库、量子计算,到深蓝、沃森,再到今天的企业级 AI、可信 AI、自动化系统与智能体研究。

01通用智能体的承诺与现实落差

通用 Agent不依赖任务特化 API,不依赖提示工程,不依赖环境包装器,面对陌生任务也能自主理解、规划、执行。OpenAI SDK Agent、Claude Code 等系统让人看到了一些苗头,但当我们真正把它们放到“无特化环境”里时,结果往往变得不那么好看。

评测,反而成了通用 Agent 的最大瓶颈。不是因为评测难,而是因为现有评测体系根本无法回答“通用性”这个问题。绝大多数 Agent 基准都隐含着大量任务集成假设,任务 API 已经准备好、环境已经结构化、输入已经清洗、工具已经绑定。这些条件让 Agent看起来很强,但也让它们完全无法在真实世界的“未知环境”中站稳脚跟。

如果要理解这项研究的意义,必须先看清当前 Agent 研究的三大误区。

第一个误区是把“任务特化 Agent”当成“通用 Agent”。许多系统在特定任务上表现惊艳,但那是因为它们被深度集成进了任务环境:API已经绑定、工具已经封装、提示已经优化。它们的强,是工程强,而不是智能强。

第二个误区,是基准测试隐含大量“任务集成假设”。当前主流 Agent 基准往往假设任务结构化、环境稳定、接口清晰,这让评测结果看起来很漂亮,却完全无法反映真实世界的复杂性。研究团队明确指出,现有基准“编码了任务信息”,从根本上排除了对通用Agent 的公平评估。

第三个误区,是缺乏跨环境、跨任务的统一评测协议。每个基准都有自己的接口、格式、工具链,导致 Agent 无法在不同环境间迁移,也无法被系统性比较。

在这样的背景下,研究团队提出了一个关键问题:

“如果不给 Agent 做任何任务特化,它还能完成任务吗?”

这个问题看似简单,却直击通用 Agent 的本质。真正的通用性,不是模型参数的大小,也不是工具数量的多少,而是Agent 是否能在陌生环境中自主理解任务、规划行动、调用工具、处理错误、完成目标。

而这恰恰是当前 Agent 的最大短板。

通用 Agent 的真正挑战,不在于语言模型本身,而在于四个系统性能力:环境理解、工具泛化、长期规划、错误恢复。模型可以很强,但如果无法理解环境状态、无法在未知工具中迁移策略、无法在失败后重新规划,那它就无法成为真正的“通用智能体”。

02构建通用智能体评估的基础设施

通用智能体的讨论已经持续多年,但真正意义上的“通用性”始终缺乏一个可以落地、可复现、跨环境的评测体系。这项研究最重要的贡献,就是把这件事从“概念”变成“基础设施”。研究团队不是在展示一个更强的 Agent,而是在搭建一个让所有 Agent 都必须面对的“现实考场”。这套体系的出现,意味着通用 Agent 的研究终于有了共同语言和统一标准。

打开网易新闻 查看精彩图片

图1:跨代理模型配置的性价比权衡。帕累托边界(红色虚线)显示了最佳的权衡:GPT 5.2配置提供了最佳的成本效益,而Claude Opus 4.5在3-33×成本更高。

研究的第一个贡献,是正式提出“General Agent Evaluation”作为一个独立研究方向。过去的Agent 评测往往被塞进某个任务基准里,或者依附在某个系统的展示中,缺乏系统性、方法论和理论框架。IBM Research 这次把它从任务中抽离出来,定义为一个独立的科学问题,如何评估一个不依赖任务特化工程的智能体?这一步的意义类似于当年 ImageNet 之于视觉、GLUE 之于语言,它为未来十年的 Agent 研究奠定了方向。

第二个贡献,是构建了跨六类环境的统一评测框架。研究没有选择单一任务或单一环境,而是覆盖了 Web、文件系统、API 工具、代码执行、游戏/模拟、结构化任务六大类环境。这些环境共同构成了现实世界中 Agent 可能面对的主要任务类型。更重要的是,它们都遵循同一套协议,让 Agent 不再依赖环境特化的接口,而必须在自然语言描述下自主行动。

第三是提出“零特化(Zero Integration)”评测原则。这个原则非常关键,它要求评测过程中不允许任何任务特化提示、API、包装器或结构化输入。换句话说,Agent 必须像真实世界那样面对“未知环境”,不能依赖工程师提前铺好的路。这是对通用性最直接、最严格的检验,也让许多看似强大的Agent 暴露出真实能力边界。

第四个贡献,是对五个主流 Agent 系统进行系统性评测,揭示了它们在无特化条件下的通用性缺陷。研究没有点名批评,但结果非常清晰:所有系统在陌生环境中的表现都远低于它们在任务特化基准中的成绩。规划混乱、工具调用失败、环境理解不足、错误恢复能力薄弱,这些问题在跨环境评测中被放大得淋漓尽致。

打开网易新闻 查看精彩图片

图2:代理评估的演变。(A)单独基准的集合,每个基准都需要一个自定义代理或一个具有特定适应能力的代理(HAL)(B)通过单一协议(如CLI或Web)整合的多个基准(C)通过可适应任何代理协议的通用协议(Exgentic)整合的多重基准。

第五是提出可扩展的评测协议,为未来 Agent 标准化奠基。研究的框架不是一次性实验,而是一套可扩展、可复现、可跨系统迁移的评测基础设施。它可以不断加入新环境、新任务、新工具,成为未来通用 Agent 研究的“公共底座”。

03评测框架设计:如何评估“真正的通用Agent”

IBM Research 的设计思路非常明确,让 Agent 在尽可能接近真实世界的条件下行动,而不是在工程师为它准备好的“温室”里完成任务。

统一协议(Unified Protocol)

研究的核心是一个统一的交互协议。所有任务都以自然语言描述,不提供结构化输入、不提供任务模板、不提供 API 文档。Agent 必须自己理解任务、规划步骤、选择工具、执行操作、处理错误。它不能依赖任何任务特化提示,也不能依赖环境包装器。这个协议让所有 Agent 都站在同一起跑线上,也让评测结果更能反映真实能力。

打开网易新闻 查看精彩图片

图3:Open General Agent Leaderboard是第一个在不同环境中跨关键技能一致测试General Agent架构的基准。

六大环境类型

研究团队选择的六类环境,几乎覆盖了现实世界中 Agent 可能遇到的主要任务类型。

Web 环境是最贴近真实世界的场景,涉及动态页面、DOM 结构、交互逻辑等复杂因素。难点在于环境高度非结构化,Agent 必须具备强大的感知与规划能力。

文件系统环境更偏向传统操作系统任务,考验 Agent 的指令理解、路径推理和状态管理能力。相对可控,但仍需要多步骤规划。

API 工具环境模拟现实中的工具调用场景,难点在于 Agent 必须理解工具功能、参数格式,并在缺乏明确文档的情况下正确调用。

代码执行环境考验 Agent 的编程能力、调试能力和逻辑推理能力。错误恢复在这里尤为关键。

游戏/模拟环境提供了动态状态、规则系统和策略空间,是测试长期规划和环境建模能力的理想场景。

结构化任务环境则用于评估 Agent 在半结构化信息中的推理能力,介于自然语言与程序化任务之间。

这些环境共同构成了一个跨维度、跨任务、跨交互模式的评测体系,让 Agent 的通用性在多角度、多层次上被检验。

任务设计原则

研究的任务设计遵循四个严格原则。

无结构化输入,意味着任务不会被预处理成模型最擅长的格式,Agent 必须自己理解自然语言。

无任务特化工具,意味着 Agent 不能依赖为某个任务定制的工具链。

无预设 API,意味着 Agent 必须自己探索工具功能,而不是依赖工程师提前写好的接口。

无提示工程,意味着 Agent 不能依赖“魔法提示”来完成任务。

这些原则共同指向一个目标,强调“陌生环境中的泛化能力”。真正的通用Agent,不是靠工程堆出来的,而是靠能力本身支撑的。

04实验设置:5个Agent × 6类环境

通用智能体的评测,只有在“把所有系统放到同一片陌生土地上”时才真正有意义。IBM Research的实验设计正是基于这种理念,不给任何系统铺路,不给任何任务特化接口,让所有 Agent 在同样的自然语言任务描述下,进入六类完全不同的环境,看看它们到底能走多远。

打开网易新闻 查看精彩图片

图4:Exgentic定义了代理和基准之间的统一协议。Exgentic Orchestrator连接代理和基准,首先传递任务定义,然后协调基准和代理之间传递的观察和操作。Exgentic提供适配器,将统一协议转换为代理和基准测试所需的特定协议。最后,基准提供质量结果指标,而代理提供代理运行时成本。

被评测的五类主流 Agent 系统

研究团队没有把注意力放在“谁更强”上,而是刻意选择了五种代表性系统,覆盖当前 Agent 生态的主要技术路线。

工业级 Agent 是最受关注的一类,包括 OpenAI SDK Agent、Claude Code 等具备强大工具调用能力的系统。它们通常在任务特化环境中表现亮眼,但在零特化条件下能否保持稳定,是本次评测的关键看点。

开源 Agent 框架代表了社区生态的另一条路线,强调可扩展性、可组合性和灵活性。它们的优势在于工程透明,但在陌生环境中往往缺乏稳健性。

工具增强型 LLM Agent 则依赖丰富的工具集,通过调用外部 API、插件或函数来完成任务。它们的挑战在于如何在没有预设 API 文档的情况下理解工具功能。

代码执行型 Agent 是近年来的热门方向,依靠编写和执行代码来解决复杂任务。它们在结构化任务中表现强势,但在动态环境中容易迷失。

Web 操作型 Agent 则专注于浏览器环境,能够解析 DOM、点击按钮、填写表单,但面对动态网页和不确定结构时常常出现策略崩溃。

这五类系统共同构成了当前 Agent 技术版图的缩影,也让评测结果更具行业代表性。

评测指标

为了全面刻画 Agent 的真实能力,研究从六个维度进行评估。

成功率是最直观的指标,衡量 Agent 是否最终完成任务。

规划质量反映了 Agent 的任务分解能力,是否能把自然语言目标拆解成合理步骤。

工具使用策略考察 Agent 是否能正确选择工具、理解参数、处理调用失败。

环境探索能力决定了 Agent 在未知环境中能否主动尝试、收集信息、调整策略。

错误恢复能力是通用 Agent 的生命线,失败后能否重新规划,而不是陷入循环或直接放弃。

任务泛化能力则是最核心的指标,衡量 Agent 是否能在完全陌生的任务和环境中保持稳定表现。

这些指标共同构成了一个多维度的能力画像,让“通用性”不再是模糊概念,而是可量化、可比较的能力结构。

05实验结果:通用Agent的真实能力远低于预期

当五类系统被放入六类陌生环境,所有任务只通过自然语言描述,没有任何任务特化工程时,结果呈现出一种令人意外却又合理的趋势,通用 Agent 的真实能力,比我们想象的要弱得多。

总体表现:所有系统在“无特化”条件下显著下降

成功率普遍偏低,这是最直接的信号。许多系统在任务特化基准中能达到 70%–90% 的成功率,但在零特化环境中往往跌到个位数或十几的水平。

工具调用混乱是另一个普遍现象。Agent 经常误用工具、传错参数、重复调用失败的函数,甚至在没有理解工具功能的情况下盲目尝试。

规划错误频繁出现,尤其是在多步骤任务中。Agent 往往无法保持任务上下文,导致步骤顺序混乱、遗漏关键操作或重复执行无意义动作。

环境理解不足则贯穿所有环境类型。无论是网页结构、文件系统状态还是 API 返回值,Agent 都难以形成稳定的环境模型,导致行动策略缺乏连贯性。

这些问题共同揭示了一个事实:当前 Agent 的“智能”更多来自工程铺路,而不是自主能力。

各环境表现差异

尽管整体表现不佳,但不同环境之间仍呈现出明显差异。

文件系统任务相对较好,因为环境结构稳定、反馈明确、操作可控。Agent 在这里更容易形成有效策略。

Web 操作与 API 调用任务的失败率极高。动态网页、复杂 DOM、缺乏结构化 API 文档,让 Agent 很难理解环境状态,导致大量无效操作。

多步骤推理任务表现不稳定。Agent 往往能完成前几步,但在任务中段或末段出现逻辑断裂,暴露出长期规划能力的不足。

这些差异说明,Agent 的能力高度依赖环境结构化程度,而非真正的通用性。

打开网易新闻 查看精彩图片

表:失败的运行比成功的运行长多少,以交互次数的百分比差异来衡量。

正值意味着失败需要更多的交互;负值意味着它们取的更少。

Agent的系统性弱点

研究的实验结果揭示了四个贯穿所有系统的核心弱点。

缺乏环境建模能力,使得 Agent 无法理解状态变化,也无法根据环境反馈调整策略。

缺乏通用工具使用策略,让 Agent 在面对未知工具时表现得像“盲试”,而不是“理解后行动”。

缺乏自我纠错机制,使得错误一旦发生,Agent 往往陷入循环、重复失败或直接放弃。

缺乏长期规划能力,让多步骤任务变得异常困难,尤其是在需要跨阶段保持上下文的场景中。

这些弱点共同构成了当前通用 Agent 的能力天花板,也说明了为什么“任务特化工程”在过去几年里如此重要——它在很大程度上掩盖了这些结构性问题。

06通用Agent的瓶颈在哪里?

通用智能体的讨论常常被大模型的光环所掩盖,人们习惯性地把“模型能力”与“Agent 能力”画上等号。但研究团队用系统性的跨环境实验告诉我们,真正的瓶颈根本不在模型,而在行动、在策略、在环境理解、在错误恢复——在那些模型本身并不擅长的地方。

模型能力 ≠ Agent 能力

大模型的语言理解、推理和生成能力确实强大,但 Agent 的任务不是“回答问题”,而是“在环境中行动”。行动意味着状态变化、工具调用、路径规划、错误处理,这些都不是 LLM 的天然强项。研究的实验结果清楚地展示了这一点,即便是最强的模型,在面对陌生工具、未知环境、动态状态时,也会表现得像一个“不会用电脑的新手”。

工具使用是第一个瓶颈。Agent 经常误用工具、传错参数、重复调用失败的函数,说明它并没有真正理解工具的功能和限制。

环境理解是第二个瓶颈。无论是网页结构、文件系统状态还是 API 返回值,Agent 都难以形成稳定的环境模型,导致行动策略缺乏连贯性。

状态建模则是第三个瓶颈。Agent 往往无法记住任务进度、环境变化或历史操作,导致规划断裂、重复执行或逻辑混乱。

这些问题共同说明:模型强,不等于 Agent 强。

当前基准严重高估了 Agent 的真实能力

研究的另一个关键洞察,是对现有基准的批判。当前 Agent 基准往往给了太多“任务特化辅助”:结构化输入、预设 API、环境包装器、提示工程。这些辅助让 Agent 看起来很强,但那是因为工程师替它完成了大部分“理解环境”的工作。

真实世界任务远比基准复杂。网页是动态的,API 没有文档,文件系统状态不稳定,工具行为不可预测。基准中的“理想环境”与现实中的“混沌环境”之间的差距,正是通用 Agent 在落地时频频翻车的原因。

研究的零特化评测框架,正是为了把这些隐藏的辅助全部剥离,让 Agent 面对真实世界的复杂性。

通用 Agent 需要“跨环境一致的认知结构”

研究提出的第三个洞察,是对未来通用 Agent 架构的方向性判断:真正的通用 Agent 必须具备跨环境一致的认知结构,而不是依赖任务特化工程。

通用规划器是第一层能力。Agent 必须能从自然语言任务中自主拆解步骤,而不是依赖模板化提示。

通用工具策略是第二层能力。Agent 必须能在没有文档的情况下理解工具功能、推断参数、处理失败。

通用错误恢复机制是第三层能力。失败不是例外,而是常态。Agent 必须能识别失败、重新规划,而不是陷入循环。

通用环境建模是第四层能力。Agent 必须能理解环境状态、预测变化、保持上下文,而不是每一步都“从零开始”。

这些能力共同构成了未来通用 Agent 的“认知骨架”。

评测体系必须从“任务特化”转向“环境无关”

研究的第四个洞察,是对评测体系的方向性重构。未来的评测不应该再围绕“任务得分”,而应该围绕“泛化能力”。这与近年来关于“Benchmark Saturation”的研究形成呼应:当模型在特定基准上达到极限时,基准本身已经无法反映真实能力。

环境无关的评测体系,才是推动 Agent 进化的关键。只有在陌生环境中,Agent 的真实能力才会被暴露;只有在无特化条件下,通用性才有意义。(END)

参考资料:https://arxiv.org/pdf/2602.22953

打开网易新闻 查看精彩图片

关于波动智能——

波动智能旨在建立一个基于人类意图与反应的真实需求洞察及满足的价值体系,融合人工智能与意识科学,构建覆盖情绪识别、建模与推荐的智能引擎,自主研发面向社交、电商等场景的多模态意图识别引擎、意图标签系统及意图智能推荐算法,形成从情绪采集、意图建模到商业转化的完整解决方案。波动智能提出“意图是连接人、物与内容的新型接口”,其产品广泛应用于AI社交、个性化内容推荐、虚拟陪伴、电商体验优化等领域。波动智能正在探索“EMO-as-a-Service”技术服务架构,赋能企业实现更高效的用户洞察与精准情绪交互,推动从功能驱动到意图驱动的产业范式升级。

亲爱的人工智能研究者,为了确保您不会错过*波动智能*的最新推送,请星标*波动智能*。我们倾心打造并精选每篇内容,只为为您带来启发和深思,希望能成为您理性思考路上的伙伴!

加入AI交流群请扫码加微信