同一道编程题,AI交出了完美答案。但它的能力是“解决问题”,还是“背下了答案”?AI初创公司Datacurve的研究人员发现,现有主流测试基准正面临严重的“泄题”危机——模型的高分表现,可能只是因为它曾见过考题。
Datacurve团队指出,多数编程基准测试的任务源自GitHub上公开的问题和拉取请求。这意味着,这些内容很可能早已进入AI模型的训练数据库。OpenAI的调查印证了这一担忧:最先进的模型甚至能直接复现基准测试中的问题描述和修正代码。OpenAI因此提出,基准性能的提升未必反映模型真正的进步,而可能只是衡量了“训练时对基准的参考程度”。AI代理开发公司Poolside也观察到类似现象,直言现有编程AI在测试中存在“作弊”行为。
面对这一信任危机,Datacurve推出了全新的测试框架DeepSWE,试图将评估拉回正轨。它的设计逻辑并非堆砌难题,而是从根本上切断了模型依赖记忆的可能。具体而言,DeepSWE从四个维度重构了测试方法。
第一,改变指令风格。DeepSWE给出的提示模仿开发者与AI代理的实际交互习惯,简短且聚焦于行为,而非冗长的技术说明。提示中不包含大规模的接口定义模块,迫使AI必须自己判断“在哪里改”“如何改”。这样一来,测试评估的不仅是明确指定的工程作业,更涵盖了端到端的探索性能。第二,大幅扩展覆盖范围。DeepSWE汇集了111个任务,覆盖91个活跃的开源仓库及TypeScript、Go、Python、JavaScript、Rust五种语言。对比之下,SWE-Bench Pro Public仅包含11个仓库,SWE-Bench Verified为12个,且多集中于知名高频维护项目。Datacurve认为,更广泛的采样能更有效反映编程代理在不同结构、文档和维护水平的代码库中执行实用修改的能力。
第三,也是最为关键的一步:任务全部为原创。DeepSWE的解答方案不是复制或改写现有的拉取请求、提交记录或公开补丁,而是从零开始构建。即便某些任务灵感来自未解决的GitHub问题,其具体修复内容也是全新的。更彻底的是,这些任务不会被合并回上游仓库,从而避免出现在GitHub公开记录中,未来也不太可能进入预训练语料库。Datacurve强调,这确保了测试检验的是AI代理解决新问题的能力,而非回忆或检索已知答案。第四,大幅优化了验证工具。测试发现,SWE-Bench Pro的验证器存在8.5%的假阳性率(接受错误实现)和24%的假阴性率(拒绝正确实现)。DeepSWE则将这两项指标分别压缩至0.3%和1.1%,让评分误差显著收窄。
换用DeepSWE之后,模型们的成绩单显得参差。GPT-5.5以70%的得分位居榜首,GPT-5.4拿到56%,Claude Opus 4.7为54%。紧随其后的是Claude Sonnet 4.6的32%,以及Gemini 3.5 Flash的28%。当记忆的捷径被堵住,测试数据的落差开始更多揭示出模型在陌生代码环境中真实的推理与适应边界。
热门跟贴