上交大师生联手"整AI"：当学生把AI解决不了的作业变成测试题|上交大师生|调用

这项由上海交通大学主导、联合SII与GAIR研究团队完成的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.02661。有兴趣深入了解的读者可以通过该编号查询完整论文。

**研究概要**

每个用过AI助手做作业的学生，大概都有这样的经历：把题目喂给AI，得到的答案要么驴唇不对马嘴，要么做到一半就卡住了，最后还是得自己动手。上海交通大学的研究团队把这个令学生们头疼的现象变成了一个严肃的科学问题——既然AI总是在某些作业上翻车，那么把这些"翻车现场"系统地收集起来，是不是就能测出AI的真实能力边界？

这就是AcademiClaw诞生的逻辑。研究团队邀请了大量本科生，把自己亲身经历过的、让AI束手无策的真实学业任务整理成题目，最终筛选出80道横跨25个以上专业领域的考题，搭建出一个专门考验AI"智力上限"的测试平台。为了让这套测试经得起推敲，每道题都运行在隔离的虚拟环境里，用六种不同的评分方法打分，还有一套安全审查机制全程盯着AI的一举一动。

结果怎么样？即使是当前最强的AI模型，及格率也只有55%。这个数字背后藏着很多值得细看的故事。

一、为什么已有的AI测试都不够用

现在市面上不缺AI测试工具。SWE-bench让AI去修GitHub上的真实代码漏洞，WebArena让AI在真实网页环境里完成操作任务，还有各种各样的问答榜单。但这些测试有一个共同的问题：它们基本上都在考"秘书级别"的任务，也就是帮人发邮件、整理日历、填写表格、从PDF里提取信息之类的活儿。

这些任务当然有用，但它们并不能告诉我们AI在真正烧脑的工作上表现如何。一个能帮你安排会议的AI，未必能帮你推导数学竞赛题目；一个能整理表格的AI，未必能调试一个跑在GPU上的强化学习训练代码。然而在现有的测试体系里，后面这些"高含金量"任务几乎是缺席的。

研究团队梳理了OpenClaw生态系统（一个被广泛使用的开源AI代理框架）下的所有现有测试基准，发现情况确实如此。PinchBench、Claw-Eval、ClawBench、WildClawBench、LiveClawBench，这些测试的任务来源无一例外都是研究者自己设计的，难度停留在"助手级别"，没有一个涉及GPU运算，也没有一个真正需要深厚专业知识才能完成。这就导致一个荒谬的现象：AI在这些测试上表现不错，让人误以为AI已经很厉害了，但一到真实的学术场景就露馅。

AcademiClaw要填补的正是这个空缺。它的核心思路不是让研究者坐在书桌前设计题目，而是去找那些真正被AI"坑过"的用户——也就是学生，让他们把自己吃的亏变成考题。

二、怎么从学生的"翻车经历"里收集到好题目

题目收集的过程本身就很有意思。研究团队面向正在修读大型语言模型技术课程的本科生发出邀请，请他们提交自己在课业、竞赛、科研或个人项目中遭遇过的、曾经把当前AI难倒的任务。

有一个硬性门槛：提交者必须亲自用过至少一款主流AI代理工具（比如Claude Code、Codex或Cursor），并且可以确认那个AI要么直接做不出来，要么需要经过大量反复交互才勉强凑出一个差强人意的结果。换句话说，题目不能是研究者凭感觉觉得AI做不了的，而是学生真刀真枪测试过确实做不好的。

这样征集来的原始候选题目共有230道。但原始提交良莠不齐，有的题目说不清楚要做什么，有的评分标准写得模糊，有的难度太低或者难度失控，有的在某一个领域堆了太多题。于是专家团队对每道题进行了严格审核，从五个维度逐一把关：题目描述是否清晰完整，评分逻辑是否准确，同样的提交是否每次都能打出一致的分数，难度是否合适，以及各领域是否分布均衡。

审核并不只是看纸面。每道通过初审的题目，都要用AI实际跑一遍，确认整个流程没有问题，评分脚本不会出现"做了一堆事情最后还是0分"或者"随便写点什么就能骗到高分"这样的情况。

经过两轮筛选，230道候选题最终剩下80道，其中49道英文题、31道中文题。被淘汰的主要原因依次是：评分逻辑有缺陷（57道），题目描述不清晰（34道），难度不合适（28道），某个领域题目太集中（18道），以及环境依赖难以复现（13道）。

最终留下的80道题，平均每道需要AI调用33次工具，最复杂的题目需要调用136次；平均耗时11.7分钟，最长的一道超过40分钟。这不是随便问几个问题就能搞定的测试，而是需要AI持续思考、反复尝试、像人一样工作很长时间的考验。

三、80道题都考什么——从奥数到强化学习的跨越

这80道题被分成六大类，覆盖25个以上的专业方向，构成了一幅相当壮观的学科版图。

第一大类是研究与分析，共21道题。这里有需要分析ESP32-S3微控制器多外设固件的嵌入式系统题，有要在剥离掉大量环境因素之后估算F1赛车手真实优势的数据分析题，还有各类技术报告写作和文献综述任务。

第二大类是机器学习与AI工程，共17道题。包括在昇腾NPU硬件上部署多语言语音识别系统、实现同构奇异值分解多任务模型合并、训练强化学习代理等。这一类里有16道题需要真正的GPU才能跑，这在现有所有AI基准测试里都是独一无二的存在——此前没有任何一个OpenClaw生态的测试基准包含GPU任务。

第三大类是软件工程，同样17道题。从用BVH加速结构实现蒙特卡洛路径追踪渲染器，到对包含混淆载荷的安全事件进行取证分析，考的都是需要深度工程经验的硬活。

第四大类是STEM推理，11道题。这里有中国数学奥林匹克2024年的证明题，有国际语言学奥林匹克2025年的题目，还有需要逻辑推导解决的谋杀谜题。这一类是整个测试里最难的，没有一个模型能在这里拿到高分。

第五大类是语言与创意，7道题。有把古典唐诗改编成现代流行歌词的任务，有为特定音乐曲目设计锁定舞编排并配上音乐分析的任务——这些题目的中文版本尤其有趣，因为它们本质上是文化性的，不能简单翻译成其他语言，考的是对汉语声韵、典故意象和当代流行文化的综合理解。

第六大类是应用与专业领域，7道题，包括日本麻将立直计算器和多约束条件旅行路线规划这样高度专业化的任务。

四、怎么给AI打分——六种方法联合出击

给AI的工作打分是一件很微妙的事情。对于"1+1等于几"这种问题，对就是对，错就是错。但对于"帮我写一首把李白诗改编成流行歌词的曲子"，或者"实现一个能跑在GPU上的强化学习训练框架"，单纯用对错来判断就太粗糙了。

研究团队为每道题设计了定制化的评分方案，满分100分，分成3到6个相互独立的评分维度，最终加总得出总分。75分以上算通过。更关键的是，他们把六种不同的评分技术组合在一起使用，每种技术各司其职。

第一种是模式匹配，用正则表达式、关键词检测和代码结构分析来验证代码或文本的格式是否正确。第二种是代码执行，把AI写的程序真正编译运行起来，对着已知答案逐一检查输出结果。第三种是大模型评判，对于报告、分析文章、创意写作这类开放性输出，用另一个AI模型充当评审，根据结构化评分表给出评价，同时保留一套确定性的兜底规则，防止评判模型出故障时整个评分瘫痪。第四种是视觉模型评判，专门用来检查图表、可视化效果或界面截图，和参考图像比对。第五种是端到端浏览器测试，用Playwright工具在无界面浏览器里打开AI开发的网页应用，模拟真实用户操作，看页面有没有报错、交互有没有响应、显示效果像不像样。第六种是结构化输出验证，检查JSON格式、CSV文件内容、BibTeX参考文献条目、Excel表格数据是否符合规范。

用这六种方法打出来的分数，能够精确告诉我们AI在哪一个环节出了问题，而不只是给一个笼统的"失败"结论。

除了评分，研究团队还对每次AI运行进行了安全审计，追踪五类潜在风险：AI有没有乱删文件或修改系统，有没有泄露敏感信息，有没有超出指定工作目录的范围行事，有没有试图提升自己的权限，以及有没有从不明来源安装未经验证的软件包。这些安全记录独立于任务评分之外，构成了对AI行为的另一个维度的观察。

五、六大AI模型的真实成绩单

研究团队选了六款当前主流的前沿模型来参加这场考试：Anthropic家的Claude Opus 4.6和Claude Sonnet 4.6，OpenAI的GPT-5.4，Google DeepMind的Gemini 3.1 Pro，阿里巴巴的Qwen3.5-397B，以及MiniMax的M2.7。每道题每个模型只有一次机会，没有重试。

成绩单出来之后，最显眼的数字是这样的：成绩最好的Claude Opus 4.6平均得了71.9分，通过率55%；Claude Sonnet 4.6平均68.3分，通过率同样是55%；GPT-5.4平均65.6分，通过率42.5%；Gemini 3.1 Pro平均64.3分，通过率43.8%；Qwen3.5-397B平均64.7分，通过率40%；MiniMax M2.7平均63.1分，通过率37.5%。

第一梯队和末位之间的平均分差只有8.8分，但通过率差距达到17.5个百分点。这说明分数相差不大的模型，在"能不能过关"这个问题上差别其实挺大的——很多题目是那种"要么做出来要么做不出来"的性质，不存在太多中间地带。

在不同分数段的分布上，排名靠后的模型有更多题目落在50到74分的"半成品"区间（Qwen3.5和MiniMax约35.6%，两个Claude模型约29.4%），同时也有更多题目直接低于50分（25.6%对比15.6%）。如果把及格线提高到80分，Claude Opus的通过率还有46.2%，而MiniMax只剩23.8%，差距进一步拉大。

整套测试里有23道题让所有六个模型都没能通过，其中8道题所有模型的得分都低于50分。这部分题目是当前AI技术真正的盲区。

六、哪类题难、哪类题容易——差距大得出乎意料

把成绩按题目类别拆开看，会发现一个规律性很强的现象：题目类别对成绩的影响，远远大于选哪个模型的影响。

六大类题目的平均分从76.9分到50.6分不等，跨度达到26.3分。而六个模型之间的平均分差，只有8.8分。换一种说法：换一个更好的AI模型，带来的提升有限；但换一种类型的题目，对成绩的影响可以是换模型的三倍。

语言与创意类题目平均分最高，达到76.9分，说明AI在生成文本、进行创意写作方面已经相当靠谱了，哪怕是专业化的细分场景也能应付。软件工程类平均分也不错，处于第二梯队，说明代码工程任务只要边界清晰、接口明确，AI还是能干得不错的。

STEM推理类则是彻底的重灾区，平均分只有50.6分，而且这还是平均数，有很多题目的得分远低于这个数字。第36届化学奥林匹克竞赛题是一个典型案例：六个模型的得分集中在23到27分之间，标准差只有1.4，意味着所有AI在这道题上都挤在同一个糟糕的分数区间，谁也没有明显优势——这不是某个模型运气不好，而是整体性的能力缺失。还有一道React加FastAPI的全栈调试题，六个模型全部得了精确的25分，标准差为零。这种"集体相同的失败"说明的是系统性的短板，而不是随机错误。

模型之间的排名并不固定，在不同类型的题目上会发生翻转。Claude Opus在四个类别里排名第一，但在语言与创意类里被GPT-5.4以83.7分超越。Claude Sonnet在ML与AI工程类拿了所有模型里的最高分74.1，却在应用与专业领域类跌到58.4，前后相差15.7分。GPT-5.4的内部落差最夸张，在语言类和应用类之间的分差达到34.3分，比最好模型和最差模型的整体平均分差还要大。

少数题目展现出极端的分化。从《百年孤独》里提取多代家族树的任务，Claude、GPT和Gemini打出86到92分，而MiniMax和Qwen只有3分，分差达到惊人的90分。这种极端分化揭示的是长文本文学理解能力上的根本性差距，不是细节上的高下之分。TensorFlow转PyTorch框架迁移任务则出现了另一种有趣的情况：GPT-5.4直接得了0分，其他所有模型都在74到90分之间——这暗示GPT-5.4存在特定框架上的盲点，只有包含足够多样类型的测试才能把这种盲点暴露出来。

七、三种不同的做事风格——AI的"行事流派"

除了分数之外，研究团队还仔细观察了每个AI在完成任务时的行为模式，发现六个模型可以归入三种截然不同的"做事流派"。

Claude Opus 4.6走的是"读透再动手"路线。它所有工具调用中，有41%用于读取文件，是排名最后的Gemini的8.6倍。它的执行次数和读取次数大体相当，比例接近1:1——这是六个模型里唯一一个在阅读和执行之间保持平衡的。这种策略需要在前期投入大量时间理解任务，但换来的是最高的平均分（71.9分）。研究团队把这种效果叫做"理解红利"：多读一些，做得更好。

Gemini 3.1 Pro走的是"先跑起来再说"路线。它74.3%的工具调用都是shell执行命令，执行次数和读取次数的比例高达28:1，而且进程管理调用的次数是其他模型平均值的4.2倍。这种策略像是一个习惯于"试了再看"的工程师——第一次跑失败了就修改参数再跑，跑失败了再换个方式再跑，靠反复尝试来接近答案。结果是Gemini消耗的token数量最多（每道题平均286万），成绩却只有64.3分，低于消耗token数量是它五分之一的GPT-5.4。快速执行不仅没能带来更好的结果，还带来了更多的安全风险——大量未经检查的shell执行命令，更容易触碰到工作范围的边界。

GPT-5.4走的是"能省则省"路线。它每道题平均只调用19次工具，是六个模型里最少的；消耗的token也最少，平均每题52.5万；完成时间最短，平均只要240秒。但它的得分是65.6分，排名第三。没有一个工具类别的使用比例超过45%，说明它在内部"想清楚"再出手，而不是边想边做。最终用最少的资源，拿到了排名中游的成绩。

其余三个模型在这两个极端之间各有侧重：Sonnet和Qwen靠近中间，MiniMax则偏向"先执行"一侧，执行调用占比65.9%。

八、更多token等于更好的结果吗

这是整篇研究里最反直觉的发现之一。

把480次模型与任务的配对评分全部放在一起，计算token消耗量和任务得分之间的相关系数，结果是-0.03，p值0.49。-0.03接近于零，意味着几乎完全没有相关性；p值0.49意味着这个结果连统计显著性的门槛都没过。换一句话说：一个AI在一道题上花了多少token，和它最后得了多少分，没有任何规律性的关联。

这个结论在每个模型内部单独检验时也成立。六个模型各自的token-成绩相关系数全部落在-0.077到+0.051之间，没有一个超过0.08，所有p值都远高于0.05的显著性门槛。Gemini消耗token最多，但成绩不是最好的；GPT-5.4消耗token最少，但成绩排在第三位，高于比它消耗更多token的Gemini。

这个现象指向一个深层问题：AI目前普遍缺乏"知道什么时候该停下来"的机制。它们会在找到答案之后继续尝试，在陷入错误路径时也会继续执行，直到时间耗尽或者token用完，而不是在事情变得没有意义时主动终止。学术界把这种现象叫做"过度思考惩罚"——花了更多力气，换来的反而是效率下降，而不是质量提升。

九、安全行为——哪里最容易出问题

在安全审计这个维度上，五类风险项目里有四项表现相对均匀：破坏性操作（各模型得分85到95之间），信息泄露（87到90之间），权限升级（90到98之间），供应链风险（73到83之间）。权限升级这一项是最让人放心的——所有模型都很少试图执行需要管理员权限的命令，这说明当前AI的安全训练在这个方面做得相当到位，没有AI会试图在做任务的过程中"顺手"给自己升级权限。

然而边界合规这一项出现了53分的巨大落差。两个Claude模型的边界合规得分在83到85之间，表现最好；Gemini只有31.6分，Qwen3.5只有34.4分，表现最差。Gemini在这项测试里积累了217次高严重级别的违规，Qwen3.5则有146次，主要表现都是访问了被划定工作目录之外的文件和路径。

Gemini的安全问题和它的行为风格有直接关联。因为它倾向于大量执行命令，当某次执行失败后，它会尝试往更广的范围里寻找资源，结果一不小心就越过了工作目录的边界。大量无约束的shell执行为这种越界行为创造了条件。

一个值得关注的发现是：安全得分和任务得分之间几乎没有相关性（相关系数绝对值小于0.29，大多数模型的p值也没能达到统计显著性）。这意味着安全和能力并不是鱼和熊掌的关系——一个AI可以同时做到安全且能干，也可以同时做到危险且低效，两者没有必然的取舍关系。

十、不同AI之间，能力有多相似

研究团队还计算了六个模型在80道题上得分的两两相关系数，发现了一个有意思的结构。

相关性最高的一对是Qwen3.5和MiniMax，相关系数达到0.729。这两个模型在哪道题上得高分、在哪道题上得低分，有高度一致的规律。研究团队推测，这可能反映了两者在训练数据或者微调策略上的相似性。相关性最低的一对是GPT-5.4和Gemini，相关系数只有0.275，意味着这两个模型在很多题目上的表现走向相反——Gemini做得好的，GPT-5.4未必能做好，反之亦然。

用统计检验确认这两对之间的差异是否真实可靠，结果是显著的（p值约为6.5×10??），两对模型的置信区间完全不重叠。这说明六个前沿模型并不是在同一条能力轴上排成一列，而是占据着截然不同的能力版图，彼此的长处和短处互有交叉但并不重合。

说到底，这项研究揭示了什么

归根结底，这项研究告诉我们，AI在"好用"和"好用得了难题"之间，还存在相当大的鸿沟。当前最强的模型在这套来自真实学生作业的测试里及格率只有55%，而且在竞赛级别的推理题目面前集体失守——这不是某一个模型的问题，而是当前这一代AI技术的共同局限。

更值得思考的是，多用token并不等于多出结果。AI在"知道什么时候该停下来、什么时候该调整策略"这件事上，仍然欠缺可靠的判断力。大量的计算资源投入，最终换不来对应的成绩提升，这提示了一个方向：未来AI的改进，或许不在于让它"想得更多"，而在于让它"想得更准"。

对于普通用户来说，这意味着把AI用于日常辅助是没问题的，但如果你遇到了真正需要深厚专业积累的难题，现阶段的AI很可能没法替代领域专家。对于AI研究者来说，这套测试提供的不只是分数，还有精确的诊断信息——哪类任务是整体性盲区，哪个模型在哪种情况下有特异性弱点，都一目了然。

有兴趣深入了解这项研究的读者，可以通过arXiv编号2605.02661查阅完整论文，代码和数据也已经在GitHub上开放，地址是GAIR-NLP/AcademiClaw。

Q&A

Q1：AcademiClaw和其他AI测试基准相比，最大的不同是什么？

A：AcademiClaw的题目全部来自真实学生的学业困境，而不是研究者凭空设计的场景。每道题都经过学生本人用真实AI工具验证确实难以解决。此外，它是目前唯一包含GPU计算任务的OpenClaw生态测试基准，也是唯一对AI行为进行五类安全审计的测试。

Q2：为什么AI用了更多的token，成绩反而没有变好？

A：研究发现，当前AI缺乏判断"何时停止"的能力，常常在已经找到答案或陷入死胡同之后继续无效地消耗资源。成绩好坏取决于推理的质量和策略，而不是计算量的多少。Gemini消耗token是GPT-5.4的五倍多，但得分反而更低，就是典型案例。

Q3：AcademiClaw测试结果对普通学生使用AI有什么实际参考意义？