打开网易新闻 查看精彩图片

OpenClaw 生态放出了一道难题:WildClawBench,专门用来验收「龙虾」AI 的实战功力!

这 60 道题全是「打工人」的真实活儿:整理发布会录像做海报、分类 arXiv 论文找 Baseline,全是多模态 + 多步骤的硬核挑战。

测试结果很扎心,连目前地表最强的 Claude Opus 4.6,在 WildClawBench 上也只拿了 51.6%。

我们真的在衡量 AI Agent 的能力吗?

纵观过去一年的各类 Benchmark,大多聚焦于模型是否能准确完成一次函数调用。然而,真实场景下的任务并非单点的格式对齐,而是一场长跑。AI 需要跨越多种模态理解信息,在动态环境中判断工具序列,并实时处理预料之外的错误。

这种端到端的闭环交付能力,才是 Agent 的核心价值。

为了填补这一评测空白,上海人工智能实验室 InternLM 团队近日推出了全面且硬核的 WildClawBench。它不再关注碎片化的正确率,而是通过极高难度的任务场景,对大模型的 Agency 智能进行一场全方位的实战校检。

打开网易新闻 查看精彩图片

图 1:WildClawBench 评测框架图。基于 Docker 的真实操作系统环境,AI 智能体可独立操作浏览器、终端等工具。

  • GitHub:github.com/InternLM/WildClawBench
  • HuggingFace 数据集:huggingface.co/datasets/internlm/WildClawBench
  • 在线排行榜:internlm.github.io/WildClawBench
  • 完整评测轨迹:drive.google.com/file/d/1FX6eidw9fNQgm15w6jOjOUCqWAQ__r0Y/view?usp=drive_link

WildClawBench:在真实助手环境里端到端评测

WildClawBench 把 Agent 丢进一个真实的 OpenClaw 环境,具备一套完整的工具集:浏览器、终端、文件系统、日历,跟真实用户日常使用的环境一模一样。

60 道任务全部手工原创设计,覆盖中英双语,分布在 6 个类别中。每道任务运行在独立的 Docker 容器里,评分用的 ground truth 和打分脚本在 Agent 执行结束后才注入容器,整个执行过程中完全不可见,从根源上杜绝数据泄露。

换句话说,每一分都是 Agent 真刀真枪挣来的。

6 大类别,60 道题,到底在考什么?

  • 生产力流程(10 题)

研究者和知识工作者每天都在做、但希望有人代劳的事。比如前面提到的 ArXiv 论文审计:Agent 要爬取某天 cs.CV 方向的全部论文,按 6 个方向自动分类;对「多模态」类别的每一篇,逐篇打开 PDF 或 HTML,核对完整的作者名单,数清正文有几张图、几张表,附录又有几张图、几张表,记录附录的起始章节标题;再根据用户是 CapRL 作者这一身份信息,从几十篇论文中挑出最相关的推荐,并把以 CapRL 为 baseline 的 benchmark 对比表原样抽取出来。

这不是「帮我总结一下摘要」——Agent 必须真的去逐篇读论文的正文内容,一张图一张表地数。

打开网易新闻 查看精彩图片

图 2 : 生产力类任务展示。Agent 要爬取某天 cs.CV 方向的全部论文,按 6 个方向自动分类,并根据用户信息(CapRL 作者)完成个性化推送。

  • 代码智能(12 题)

给 Agent 一个完全没有文档的代码仓库,让它自己读源码、装依赖、写推理脚本跑通。比如从 SAM3 的源码出发写出可运行的推理代码,或者解视觉谜题(拼图、连线、Link-a-Pix),要求生成像素级精确的解。

  • 社交互动(6 题)

多轮沟通和上下文追踪。Agent 需要通过多轮邮件来回协商一个多人都有空的会议时间,或者扫一遍聊天记录把所有待办事项、deadline、负责人整理成结构化清单。

  • 搜索检索(11 题)

当网上搜到的信息和本地数据对不上时,Agent 要交叉验证、判断谁对谁错。比如多个来源给出矛盾的财务数据,Agent 需要追溯原始出处并给出有依据的结论。

打开网易新闻 查看精彩图片

图 3:搜索检索类任务展示。Agent 要根据提供的谷歌学术主页,确定两位学者之间的最短关系链条,相邻的学者对之间均需要有合作论文。

  • 创意合成(11 题)

这一类最考验「全栈」能力。前面提到的产品发布会任务就是其中之一:在断网条件下看完一段完整的发布会录像,识别全部 8 款硬件产品,提取名称、芯片、配色、起售价等结构化信息存成 JSON,再从视频中截取产品画面,排版成一份 5 页 A4 的专业宣传 PDF。评测不仅检查数据是否精确(价格必须和 ground truth 完全一致),还让 VLM 对 PDF 的排版美感、图文一致性打分 —— 做出来的东西不仅要「对」,还要「好看」。

打开网易新闻 查看精彩图片

图 4:创意合成类任务展示。Agent 要根据提供的球赛完整视频,剪辑一段巴塞罗那 7 号球员费兰・托雷斯上半场的精彩进球集锦。

  • 安全对齐(10 题)

最隐蔽也最关键的一类。恶意指令被深埋在一份看起来完全正常的文档中间,Agent 要能识别出来并拒绝执行;API Key 散落在一个大型项目上百条 Git commit 的历史里,Agent 要像安全审计员一样逐一排查并报告泄露风险,而不是无视它们继续干活。

排行榜:最强模型刚过半,国产模型挤进前三

截至 2026 年 4 月 1 日,WildClawBench 已评测 14 个前沿模型,结果如下:

打开网易新闻 查看精彩图片

图 5:Leaderboard。我们评测了国内外共 14 个前沿模型

几个值得注意的发现:

  • 分数天花板很低:排名第一的 Claude Opus 4.6 刚过 51 分,可见虽然日常的任务但是真实的环境还是让 AI Agent 为难的,这个 benchmark 短期内不会被「刷爆」,分数的区分度很高;
  • 性价比差异悬殊:Claude Opus 4.6 跑一次的平均花费超过 80 美元,GPT-5.4 只要 20 美元但只落后 1.3 个百分点。在成本敏感的场景下,「最贵的」未必是最优选择;
  • 国产模型集体亮相,智谱 GLM 5 拿下探花:14 个参评模型中有 9 个来自中国团队,智谱 AI 的 GLM 5 以 42.6% 拿下总榜第三,是唯一进入前三的国产模型,力压 Google DeepMind 的 Gemini 3.1 Pro,而且花费仅 $11.39—— 不到 Claude Opus 4.6 的七分之一。小米 MiMo V2 Pro(40.2%)紧随其后排名第五,同样超过了 Gemini。国产模型在 Agent 端到端能力上的追赶速度,比很多人预想的要快。

打开网易新闻 查看精彩图片

图 6:子类别雷达图。我们展示了六个类别下模型的得分,发现不同模型有各自不同的擅长领域。

「养龙虾」排行榜:你的 AI 助手比我的强吗?

WildClawBench 还有一个有趣的延伸:个人 OpenClaw 排行榜。

在 OpenClaw 社区里,「养龙虾」已经成了一种现象:用户持续给自己的 AI 助手教新技能、定制人格、积累长期记忆。一个自然而然的问题是:谁的龙虾更厉害?

WildClawBench 允许用户把自己精心调教的 OpenClaw 工作区(包括 SOUL.md、MEMORY.md、自定义技能等)提交到同一套 60 道题上跑分。跑完把结果发到指定邮箱,就能上排行榜。

这不仅仅是比个高低,它能帮助社区理解,在同一个底座模型上,哪些 harness,技能组合、人格设定和记忆策略真的能提升 Agent 的任务完成率。

开源,可复现,欢迎贡献

WildClawBench 采用 MIT 开源协议,全部 60 道任务的 markdown 定义、评分代码、Docker 镜像和数据集均已公开。

项目还提供了任务模板,社区可以按照统一格式贡献新任务。每道任务自带自动评分脚本,支持一键批量评测。

当最强 AI Agent 的最高分还不到 60 分,我们离真正可靠的 AI 助手还有多远?至少现在有了一把刻度清晰的尺子。