打开网易新闻 查看精彩图片

通义千问 × 港中文联合发布OccuBench,首次用"语言世界模型"系统评测AI Agent的真实职业能力。

GPT-5.2能写代码、能刷网页、能聊天。但如果让它去做急诊分诊呢?或者管核电站报警、处理海关报关呢?

答案是不知道,因为根本没法测。

WebArena测网页操作,SWE-bench测代码修复,OSWorld测桌面任务。这些基准加在一起,覆盖的也不过是浏览器、代码编辑器、操作系统这几个领域。而真实世界中绝大多数高价值职业工作,压根没有可以用来测试的公开环境:急诊室没有开源API,核电站不会给你搭沙箱,海关系统更不可能开放权限。

01

核心思路:让大模型来模拟环境

通义千问团队(Qwen Team)和香港中文大学的研究者想了个办法:既然没有真实环境,那就让大模型模拟一个。

给LLM一份环境配置(任务场景描述、工具定义和初始状态),它就能变成一个有状态的、可交互的模拟环境。研究者将其称为语言世界模型(Language World Model, LWM)

举个例子:你告诉LLM "你现在是一个急诊科信息系统,有3个检查室、5个候诊患者,支持分诊、转运、下医嘱等操作",它就真的能扮演这个系统, 根据Agent的每一步操作,维护内部状态并返回合理的响应。

通过这样做,环境的构建从工程问题变成了配置问题,不用写后端代码,不用搭基础设施,只要LLM能理解这个领域就行。

基于这个思路,研究者构建了OccuBench,一个覆盖100个职业场景、10大行业、65个细分领域、382个评测实例的Agent评测基准。Bench当中的任务平均包含5.5个专业工具,需要Agent调用约16.2次工具才能完成。

打开网易新闻 查看精彩图片

02

不只是模拟,还能注入故障

真实生产环境里,API会超时,数据会截断,服务会降级,这些都是常态。但现有的Agent评测基本都是在理想环境下跑的。

基于LWM的agent 评测有一个独特优势:环境行为完全由提示词控制。只需要修改几句提示词,就能精确注入各种故障:

打开网易新闻 查看精彩图片

所有故障都是暂态的,重试就能恢复。关键在于Agent能不能意识到出了问题,然后主动重试。这考验了agent的自主性,影响了agent能否在没有人工干预的情况下独立完成长程任务。

03

15个模型综合评价,几个值得注意的结果

研究者评测了15个前沿模型,覆盖8大模型家族:GPT-5.2、Claude全系列(4 / 4.5 / 4.6,含Opus和Sonnet)、Gemini 3.1 Pro / Flash-Lite、DeepSeek V3.2、Kimi K2.5、MiniMax M2.7、GLM-5、Qwen 3.5 Plus / Flash。

▎发现一:没有全能选手

GPT-5.2以总分79.6%排名第一,在科研领域更是高达94%。但看电商消费?只有67%,被Qwen 3.5 Plus(81%)甩开14个百分点

Gemini 3.1 Pro在教育领域以84%拿下第一,Claude Opus 4.6在交通运输以77%称王,Qwen 3.5 Plus则在医疗健康和电商消费双双拿到81%的行业最高分。

每个模型都有自己擅长和不擅长的行业。这启示我们,在实际生产中,选Agent不能只看总分,还得看你的具体场景。

打开网易新闻 查看精彩图片

▎发现二:隐式故障比显式故障难对付得多

显式故障(API报错、超时)相对好处理, Agent看到报错,知道该重试就行了。

隐式故障就不一样了。在干净环境下,模型平均得分67.5%。遇到显式故障掉到62.6%,遇到隐式故障则降到53.4%,比显式故障低了9.2个百分点。拿Claude Opus 4.6举例:显式故障下只掉了3.4%(71.5%→68.1%),但隐式故障下直接掉了17.6%(71.5%→53.9%)。原因其实也很简单:数据截断了,但返回格式完全正确,没有报错信号,Agent不知道自己拿到的数据是残缺的。

9个测试模型中,有4个在隐式故障(E2)下的表现甚至比混合故障(E3)更差, 隐式故障比显式+隐式一起来还难对付。

打开网易新闻 查看精彩图片

▎发现三:Scaling定律依然有效

研究者们还发现,更大的模型、更新的版本、更深的思考,在OccuBench上全部带来了稳定提升:

模型规模:Gemini Pro比Flash-Lite高11.0%,Qwen Plus比Flash高10.2%

代际迭代:Claude Opus从v4到v4.6,总提升10.2个百分点(61.3%→71.5%)

推理深度:GPT-5.2关掉推理只有54.7%,开到最高推理强度则达到了82.2%的分数,差了27.5个百分点

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

▎发现四:做Agent厉害 ≠ 当环境模拟器靠谱

研究者还做了一个交叉实验:让不同模型分别充当Agent和环境模拟器,看结果会怎么变。

GPT-5.2当Agent是第一名(79.6%),但当它反过来充当环境模拟器时, 所有Agent的平均分只剩29.3%,还不到用Gemini Flash当模拟器时(67.9%)的一半。

研究者扒了失败案例,发现GPT-5.2当模拟器时存在三种典型问题:

状态虚构:急诊分诊任务中,凭空多出两个不存在的检查室,Agent被误导选错了房间

实体遗漏:工单派发任务中,把关键的数据库专家从名册里吞掉了,Agent无人可派

规则发明:退货任务中,自己编了一条 "退货窗口已过期" 的规则,但是任务里根本没这条限制

相比之下,Qwen 3.5 Plus作为模拟器与Gemini Flash的排名的一致性达到了85.7%(28对成对排名比较中,24对完全相同),前三名完全吻合。

这启示我们,做agent和做环境模拟器,看起来是两种不太一样的能力。这个结果对所有用LLM模拟环境来做评测/训练的方案来说,都值得参考。

04

三个具体案例

▎案例一:末端配送: 你会先充电吗?

任务:找到编号最大的医疗包裹MED-615,送到指定地址,全程电池不能低于15%。

Claude Opus 4.6:查库存→找到MED-615→看了眼电量28%,觉得不够→先充满电→出发,到达时还剩82%→送达 ->Success

DeepSeek V3.2:查库存→找到MED-615→直接就走了→到达时电量12.5%→违反15%安全线 ->Fail

它们的区别就在于出发前有没有看一眼电量够不够, 有没有时刻牢记问题中的约束。

▎案例二:房产估值: 你能发现数据被截断了吗?

任务:评估一栋15个单元的物业,计算DSCR(偿债覆盖率)是否达到1.20x的贷款门槛。环境悄悄只返回了2个单元的数据,没有任何报错。

Claude Opus 4.6:“等等,15个单元怎么只返回了2个?”→重新请求→拿到完整数据→算出DSCR 1.19x,不达标 ->Success

Kimi K2.5:也重试了一次,但故障还在→直接假设15个单元都跟这2个一样→算出1.72x,达标→实际上这栋楼根本不合格 ->Fail

就因为数据截断,两个模型得出了完全相反的财务结论。放在真实金融场景里,这种错误的代价是很大的!

▎案例三:公交调度: 故障面前,谁能坚持到底?

任务:在显式故障(E1)环境下恢复一条公交线路的时刻表。

Claude Opus 4.6:12步操作中遇到了4次错误(超时、500),每次都坚持重试→最终完成全部调度 ->Success

Kimi K2.5:第一次遇到错误就停了→只完成了2步操作→任务失败 ->Fail

同样的故障率,一个坚持了12步走完了,另一个第2步就放弃了。

05

关于OccuBench

OccuBench覆盖10大行业: 农业与环境、商务与企业、电商与消费、教育与文化、医疗与生命科学、工业与工程、公共服务与治理、科学与研究、技术与IT、交通与物流。从行业难度来看,商务与企业(70.1%)和公共服务(69.4%)相对容易,而交通与物流(56.2%)和教育与文化(57.6%)是最具挑战性的行业。

OccuBench完整开源:382个评测任务 + 100个场景的环境配置 + 全部参考实现代码。

论文:https://arxiv.org/abs/2604.10866

项目主页:https://gregxmhu.github.io/OccuBench-website/

代码:https://github.com/GregxmHu/OccuBench

数据:https://huggingface.co/datasets/gregH/OccuBench

打开网易新闻 查看精彩图片

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。