OpenClaw 生态放出了一道难题:WildClawBench,专门用来验收「龙虾」AI 的实战功力!
这 60 道题全是「打工人」的真实活儿:整理发布会录像做海报、分类 arXiv 论文找 Baseline,全是多模态 + 多步骤的硬核挑战。
测试结果很扎心,连目前地表最强的 Claude Opus 4.6,在 WildClawBench 上也只拿了 51.6%。
我们真的在衡量 AI Agent 的能力吗?
纵观过去一年的各类 Benchmark,大多聚焦于模型是否能准确完成一次函数调用。然而,真实场景下的任务并非单点的格式对齐,而是一场长跑。AI 需要跨越多种模态理解信息,在动态环境中判断工具序列,并实时处理预料之外的错误。
这种端到端的闭环交付能力,才是 Agent 的核心价值。
为了填补这一评测空白,上海人工智能实验室 InternLM 团队近日推出了全面且硬核的 WildClawBench。它不再关注碎片化的正确率,而是通过极高难度的任务场景,对大模型的 Agency 智能进行一场全方位的实战校检。
图 1:WildClawBench 评测框架图。基于 Docker 的真实操作系统环境,AI 智能体可独立操作浏览器、终端等工具。
- GitHub:github.com/InternLM/WildClawBench
- HuggingFace 数据集:huggingface.co/datasets/internlm/WildClawBench
- 在线排行榜:internlm.github.io/WildClawBench
- 完整评测轨迹:drive.google.com/file/d/1FX6eidw9fNQgm15w6jOjOUCqWAQ__r0Y/view?usp=drive_link
WildClawBench:在真实助手环境里端到端评测
WildClawBench 把 Agent 丢进一个真实的 OpenClaw 环境,具备一套完整的工具集:浏览器、终端、文件系统、日历,跟真实用户日常使用的环境一模一样。
60 道任务全部手工原创设计,覆盖中英双语,分布在 6 个类别中。每道任务运行在独立的 Docker 容器里,评分用的 ground truth 和打分脚本在 Agent 执行结束后才注入容器,整个执行过程中完全不可见,从根源上杜绝数据泄露。
换句话说,每一分都是 Agent 真刀真枪挣来的。
6 大类别,60 道题,到底在考什么?
- 生产力流程(10 题)
研究者和知识工作者每天都在做、但希望有人代劳的事。比如前面提到的 ArXiv 论文审计:Agent 要爬取某天 cs.CV 方向的全部论文,按 6 个方向自动分类;对「多模态」类别的每一篇,逐篇打开 PDF 或 HTML,核对完整的作者名单,数清正文有几张图、几张表,附录又有几张图、几张表,记录附录的起始章节标题;再根据用户是 CapRL 作者这一身份信息,从几十篇论文中挑出最相关的推荐,并把以 CapRL 为 baseline 的 benchmark 对比表原样抽取出来。
这不是「帮我总结一下摘要」——Agent 必须真的去逐篇读论文的正文内容,一张图一张表地数。
图 2 : 生产力类任务展示。Agent 要爬取某天 cs.CV 方向的全部论文,按 6 个方向自动分类,并根据用户信息(CapRL 作者)完成个性化推送。
- 代码智能(12 题)
给 Agent 一个完全没有文档的代码仓库,让它自己读源码、装依赖、写推理脚本跑通。比如从 SAM3 的源码出发写出可运行的推理代码,或者解视觉谜题(拼图、连线、Link-a-Pix),要求生成像素级精确的解。
- 社交互动(6 题)
多轮沟通和上下文追踪。Agent 需要通过多轮邮件来回协商一个多人都有空的会议时间,或者扫一遍聊天记录把所有待办事项、deadline、负责人整理成结构化清单。
- 搜索检索(11 题)
当网上搜到的信息和本地数据对不上时,Agent 要交叉验证、判断谁对谁错。比如多个来源给出矛盾的财务数据,Agent 需要追溯原始出处并给出有依据的结论。
图 3:搜索检索类任务展示。Agent 要根据提供的谷歌学术主页,确定两位学者之间的最短关系链条,相邻的学者对之间均需要有合作论文。
- 创意合成(11 题)
这一类最考验「全栈」能力。前面提到的产品发布会任务就是其中之一:在断网条件下看完一段完整的发布会录像,识别全部 8 款硬件产品,提取名称、芯片、配色、起售价等结构化信息存成 JSON,再从视频中截取产品画面,排版成一份 5 页 A4 的专业宣传 PDF。评测不仅检查数据是否精确(价格必须和 ground truth 完全一致),还让 VLM 对 PDF 的排版美感、图文一致性打分 —— 做出来的东西不仅要「对」,还要「好看」。
图 4:创意合成类任务展示。Agent 要根据提供的球赛完整视频,剪辑一段巴塞罗那 7 号球员费兰・托雷斯上半场的精彩进球集锦。
- 安全对齐(10 题)
最隐蔽也最关键的一类。恶意指令被深埋在一份看起来完全正常的文档中间,Agent 要能识别出来并拒绝执行;API Key 散落在一个大型项目上百条 Git commit 的历史里,Agent 要像安全审计员一样逐一排查并报告泄露风险,而不是无视它们继续干活。
排行榜:最强模型刚过半,国产模型挤进前三
截至 2026 年 4 月 1 日,WildClawBench 已评测 14 个前沿模型,结果如下:
图 5:Leaderboard。我们评测了国内外共 14 个前沿模型
几个值得注意的发现:
- 分数天花板很低:排名第一的 Claude Opus 4.6 刚过 51 分,可见虽然日常的任务但是真实的环境还是让 AI Agent 为难的,这个 benchmark 短期内不会被「刷爆」,分数的区分度很高;
- 性价比差异悬殊:Claude Opus 4.6 跑一次的平均花费超过 80 美元,GPT-5.4 只要 20 美元但只落后 1.3 个百分点。在成本敏感的场景下,「最贵的」未必是最优选择;
- 国产模型集体亮相,智谱 GLM 5 拿下探花:14 个参评模型中有 9 个来自中国团队,智谱 AI 的 GLM 5 以 42.6% 拿下总榜第三,是唯一进入前三的国产模型,力压 Google DeepMind 的 Gemini 3.1 Pro,而且花费仅 $11.39—— 不到 Claude Opus 4.6 的七分之一。小米 MiMo V2 Pro(40.2%)紧随其后排名第五,同样超过了 Gemini。国产模型在 Agent 端到端能力上的追赶速度,比很多人预想的要快。
图 6:子类别雷达图。我们展示了六个类别下模型的得分,发现不同模型有各自不同的擅长领域。
「养龙虾」排行榜:你的 AI 助手比我的强吗?
WildClawBench 还有一个有趣的延伸:个人 OpenClaw 排行榜。
在 OpenClaw 社区里,「养龙虾」已经成了一种现象:用户持续给自己的 AI 助手教新技能、定制人格、积累长期记忆。一个自然而然的问题是:谁的龙虾更厉害?
WildClawBench 允许用户把自己精心调教的 OpenClaw 工作区(包括 SOUL.md、MEMORY.md、自定义技能等)提交到同一套 60 道题上跑分。跑完把结果发到指定邮箱,就能上排行榜。
这不仅仅是比个高低,它能帮助社区理解,在同一个底座模型上,哪些 harness,技能组合、人格设定和记忆策略真的能提升 Agent 的任务完成率。
开源,可复现,欢迎贡献
WildClawBench 采用 MIT 开源协议,全部 60 道任务的 markdown 定义、评分代码、Docker 镜像和数据集均已公开。
项目还提供了任务模板,社区可以按照统一格式贡献新任务。每道任务自带自动评分脚本,支持一键批量评测。
当最强 AI Agent 的最高分还不到 60 分,我们离真正可靠的 AI 助手还有多远?至少现在有了一把刻度清晰的尺子。
热门跟贴