上海AI Lab InternLM团队WildClawBench 60题，把龙虾AI打回原形|agent|internlm|wildclawbench|上海市|代码|电子表格|评测|龙虾

OpenClaw 生态放出了一道难题：WildClawBench，专门用来验收「龙虾」AI 的实战功力！

这 60 道题全是「打工人」的真实活儿：整理发布会录像做海报、分类 arXiv 论文找 Baseline，全是多模态 + 多步骤的硬核挑战。

测试结果很扎心，连目前地表最强的 Claude Opus 4.6，在 WildClawBench 上也只拿了 51.6%。

我们真的在衡量 AI Agent 的能力吗？

纵观过去一年的各类 Benchmark，大多聚焦于模型是否能准确完成一次函数调用。然而，真实场景下的任务并非单点的格式对齐，而是一场长跑。AI 需要跨越多种模态理解信息，在动态环境中判断工具序列，并实时处理预料之外的错误。

这种端到端的闭环交付能力，才是 Agent 的核心价值。

为了填补这一评测空白，上海人工智能实验室 InternLM 团队近日推出了全面且硬核的 WildClawBench。它不再关注碎片化的正确率，而是通过极高难度的任务场景，对大模型的 Agency 智能进行一场全方位的实战校检。

图 1：WildClawBench 评测框架图。基于 Docker 的真实操作系统环境，AI 智能体可独立操作浏览器、终端等工具。

GitHub：github.com/InternLM/WildClawBench
HuggingFace 数据集：huggingface.co/datasets/internlm/WildClawBench
在线排行榜：internlm.github.io/WildClawBench
完整评测轨迹：drive.google.com/file/d/1FX6eidw9fNQgm15w6jOjOUCqWAQ__r0Y/view?usp=drive_link

WildClawBench：在真实助手环境里端到端评测

WildClawBench 把 Agent 丢进一个真实的 OpenClaw 环境，具备一套完整的工具集：浏览器、终端、文件系统、日历，跟真实用户日常使用的环境一模一样。

60 道任务全部手工原创设计，覆盖中英双语，分布在 6 个类别中。每道任务运行在独立的 Docker 容器里，评分用的 ground truth 和打分脚本在 Agent 执行结束后才注入容器，整个执行过程中完全不可见，从根源上杜绝数据泄露。

换句话说，每一分都是 Agent 真刀真枪挣来的。

6 大类别，60 道题，到底在考什么？

生产力流程（10 题）

研究者和知识工作者每天都在做、但希望有人代劳的事。比如前面提到的 ArXiv 论文审计：Agent 要爬取某天 cs.CV 方向的全部论文，按 6 个方向自动分类；对「多模态」类别的每一篇，逐篇打开 PDF 或 HTML，核对完整的作者名单，数清正文有几张图、几张表，附录又有几张图、几张表，记录附录的起始章节标题；再根据用户是 CapRL 作者这一身份信息，从几十篇论文中挑出最相关的推荐，并把以 CapRL 为 baseline 的 benchmark 对比表原样抽取出来。

这不是「帮我总结一下摘要」——Agent 必须真的去逐篇读论文的正文内容，一张图一张表地数。

图 2 : 生产力类任务展示。Agent 要爬取某天 cs.CV 方向的全部论文，按 6 个方向自动分类，并根据用户信息（CapRL 作者）完成个性化推送。

代码智能（12 题）

给 Agent 一个完全没有文档的代码仓库，让它自己读源码、装依赖、写推理脚本跑通。比如从 SAM3 的源码出发写出可运行的推理代码，或者解视觉谜题（拼图、连线、Link-a-Pix），要求生成像素级精确的解。

社交互动（6 题）

多轮沟通和上下文追踪。Agent 需要通过多轮邮件来回协商一个多人都有空的会议时间，或者扫一遍聊天记录把所有待办事项、deadline、负责人整理成结构化清单。

搜索检索（11 题）

当网上搜到的信息和本地数据对不上时，Agent 要交叉验证、判断谁对谁错。比如多个来源给出矛盾的财务数据，Agent 需要追溯原始出处并给出有依据的结论。

图 3：搜索检索类任务展示。Agent 要根据提供的谷歌学术主页，确定两位学者之间的最短关系链条，相邻的学者对之间均需要有合作论文。

创意合成（11 题）

这一类最考验「全栈」能力。前面提到的产品发布会任务就是其中之一：在断网条件下看完一段完整的发布会录像，识别全部 8 款硬件产品，提取名称、芯片、配色、起售价等结构化信息存成 JSON，再从视频中截取产品画面，排版成一份 5 页 A4 的专业宣传 PDF。评测不仅检查数据是否精确（价格必须和 ground truth 完全一致），还让 VLM 对 PDF 的排版美感、图文一致性打分 —— 做出来的东西不仅要「对」，还要「好看」。

图 4：创意合成类任务展示。Agent 要根据提供的球赛完整视频，剪辑一段巴塞罗那 7 号球员费兰・托雷斯上半场的精彩进球集锦。

安全对齐（10 题）

最隐蔽也最关键的一类。恶意指令被深埋在一份看起来完全正常的文档中间，Agent 要能识别出来并拒绝执行；API Key 散落在一个大型项目上百条 Git commit 的历史里，Agent 要像安全审计员一样逐一排查并报告泄露风险，而不是无视它们继续干活。

排行榜：最强模型刚过半，国产模型挤进前三

截至 2026 年 4 月 1 日，WildClawBench 已评测 14 个前沿模型，结果如下：

图 5：Leaderboard。我们评测了国内外共 14 个前沿模型

几个值得注意的发现：

分数天花板很低：排名第一的 Claude Opus 4.6 刚过 51 分，可见虽然日常的任务但是真实的环境还是让 AI Agent 为难的，这个 benchmark 短期内不会被「刷爆」，分数的区分度很高；
性价比差异悬殊：Claude Opus 4.6 跑一次的平均花费超过 80 美元，GPT-5.4 只要 20 美元但只落后 1.3 个百分点。在成本敏感的场景下，「最贵的」未必是最优选择；
国产模型集体亮相，智谱 GLM 5 拿下探花：14 个参评模型中有 9 个来自中国团队，智谱 AI 的 GLM 5 以 42.6% 拿下总榜第三，是唯一进入前三的国产模型，力压 Google DeepMind 的 Gemini 3.1 Pro，而且花费仅 $11.39—— 不到 Claude Opus 4.6 的七分之一。小米 MiMo V2 Pro（40.2%）紧随其后排名第五，同样超过了 Gemini。国产模型在 Agent 端到端能力上的追赶速度，比很多人预想的要快。