一、侦探破案隐喻:AI 推理的真实困境

一、侦探破案隐喻:AI 推理的真实困境

“找出凯恩・科恩斯的父亲是谁?”

如果有人告诉你 “先找他哥哥,再找哥哥的继母,最后找继母的丈夫”,这案子堪称送分题。但要是没有任何提示,你得自己琢磨查谁、问谁、走哪条线索 —— 这才是 AI 真正面临的考验。

2025 年 10 月,阿里通义实验室等机构的研究揭开了一个残酷真相:我们一直用 “泄题” 的试卷考 AI,导致严重高估了它的推理能力。更关键的是,他们推出了首个 “无提示” 测试系统 WebDetective(代码已开源),一考之下,25 个顶尖 AI 原形毕露。

二、传统测试的 “泄题” 套路:AI 一直在 “做弊”?

二、传统测试的 “泄题” 套路:AI 一直在 “做弊”?

就像考核侦探却提前给线索,当前 AI 测试的 “泄题” 分两种:

  • 路径提示:问题直接给出推理步骤,比如问 “凯恩的哥哥的继母的丈夫是谁”。AI 只需按图索骥,根本不用想 “从哪开始查”。
  • 规范提示:用一堆特征画 “身份指纹”,比如 “找 5AA 电台的前足球运动员主持人,妻子是 2007 年工党候选人”。AI 只需匹配特征,本质是 “填数独” 而非推理。

更糟的是,传统评估只看 “对不对”,不管 “怎么答的”。就像侦探猜中答案、查错步骤、直接放弃,都算 “失败”—— 根本分不清 AI 是找不到线索、不会拼线索,还是瞎猜。

三、WebDetective:给 AI 出的 “真考题”

三、WebDetective:给 AI 出的 “真考题”

为了考出真实水平,WebDetective 设计了两大杀招:

1. 只给问题,不给提示

直接问 “凯恩的父亲是谁”,没有任何步骤指引。就像警长扔下案子就走,侦探全靠自己摸索。

2. 打造 “密室逃脱” 式测试环境

怕 AI 走捷径(比如直接搜到凯恩父子同框新闻),研究团队建了个 “受控维基百科”:

  • 凯恩的页面只写着 “有个哥哥查德”
  • 查德的页面只写着 “继母是妮可”
  • 妮可的页面才写着 “丈夫格雷厄姆”

就像密室逃脱,必须拿到前一扇门的钥匙才能进下一扇,AI 想跳过步骤根本不可能。同时,系统还能追踪 AI 的每步操作,精准定位失败原因。

3. 医生式诊断框架

不再只看 “对错”,而是拆分评估:

  • 知识获取:找到关键线索了吗?(像侦探收集到证物没)
  • 答案生成:有线索能拼出真相吗?没线索会说 “不知道” 吗?(像侦探会分析证物、懂不懂认输)

打开网易新闻 查看精彩图片

四、给 AI 配 “办案工具”:EvidenceLoop 的尝试

四、给 AI 配 “办案工具”:EvidenceLoop 的尝试

研究团队没只挑问题,还做了个 “AI 办案助手” EvidenceLoop,核心是三个设计:

  1. 侦探团队协作:3 个 AI 分头查线索,汇总后再深入,避免漏线索或信息过载;
  2. 证物编号系统:线索存成 “证据 #042”,摘要 + 编号既省空间又能随时调原证;
  3. 实时审核机制:AI 答完必须标证据,专人(验证 AI)查 “线索对不对、能不能拼出答案”,有漏洞就补查。

这套系统准确率达 25%,虽不如顶尖模型,但指明了方向。不过也暴露了 AI 的新问题:会 “过早放弃”、记不住之前的线索、反复查同一页面浪费精力。

五、真相:我们可能高估了 AI 的进步

五、真相:我们可能高估了 AI 的进步

这项研究最值钱的不是分数,而是搞懂了 AI “哪里不行”:

  • 不是 AI 没进步,是之前的测试太水 —— 就像用开卷考成绩当智商分;
  • 当前技术下,AI 要么推理强但爱瞎猜,要么靠谱但不顶尖,二者难兼顾;
  • AI 缺 “工作记忆”,记不住推理过程中的线索,这得从模型架构上改。

就像侦探得懂收集、分析、判断分寸,真正的 AI 推理也得会找线索、拼线索、知边界。现在看来,这条路还长着呢。