打开网易新闻 查看精彩图片

Semgrep 用同一套 IDOR 漏洞检测数据集和提示词测试多款模型,结果发现智谱 GLM-5.2 在没有端点发现、上下文筛选等专用脚手架支持的情况下,F1 分数达到 39%,超过 Claude Code 的 32%,且每发现一个漏洞成本约 0.17 美元。

以下为全文。

打开网易新闻 查看精彩图片

我们用一组热门开源模型跑了自己的 IDOR 基准测试。这个数据集和提示词,和我们用来评估前沿编码 Agent 的完全相同。

结果让我们很意外。

来自智谱 AI 的开放权重模型 GLM 5.2,在 IDOR 检测上拿到了 39% 的 F1 分数,超过了 Claude Code 的 32%,平均每发现一个漏洞的成本大约只有 0.17 美元。

它仍然落后于 Semgrep 的多模态流水线,后者 F1 分数在 53% 到 61% 之间。但那套流水线运行在专门构建的 harness 里,很多重活都由这套框架完成了。只看那些“除了提示词什么都不给”的模型,最好的开放权重模型已经不再是显而易见的弱者,甚至超过了 Claude Opus 4.8。

其实,我们并不是想评出一个开放权重模型冠军。

我们真正想回答的是一个更窄、也更枯燥的问题:漏洞检测性能到底有多少来自模型本身,又有多少来自模型外面的 harness?

对 Semgrep 来说,这个问题非常重要。因为我们在和客户交流时发现,很多客户正在大量使用 AI Agent 执行安全任务。

这里说的 harness,可以理解为包裹在模型外面的一套脚手架。它负责将代码仓库喂给模型,决定模型能看到什么,解析模型输出,并让模型围绕任务循环执行。

我们的内部多模态流水线就运行在一套 harness 里,而且这套 harness 是专门为静态分析设计的。

我们已经在内部测试了一段时间,工作流主要用于寻找 IDOR,也就是 Insecure Direct Object References,不安全的直接对象引用。这类问题本质上是访问控制问题,可以粗略理解为:你正在访问属于另一个用户的东西。

我们的 harness 会枚举应用的端点,并通过代码筛出重要上下文,然后将模型直接指向这些位置。这已经提供了大量结构化信息。但就像前面说的,我们原本并不是要回答“哪个开放权重模型最好”这个问题。

这次测试中的模型没有拿到这些结构化支持。它们只是运行在一个简单的 Pydantic AI harness 里,使用的也是我们给其他 LLM 供应商模型的同一份 IDOR 提示词。没有端点发现,没有引导式导航。

当然,我们确实给了一点帮助,比“这是代码,去找漏洞”稍微多一些:我们提供了一些搜索策略,也给了一些关于 IDOR 特征的提示。

所以,这个实验一开始其实是想比较“提示词”和“harness”的作用。

但在测试过程中,我们确实被震住了:一个开放权重模型,在没有我们这些脚手架的情况下,超过了一个前沿编码 Agent。

GLM-5.2 登场

如果你没听说过 GLM-5.2,不用担心,我们之前也没听过。直到我们在社交媒体上看到它,才决定将它加入基准测试。

GLM 5.2 是智谱 AI,也就是 Z.ai,推出的最新模型。它于 2026 年 6 月 13 日星期六向 GLM Coding Plan 会员开放,三天后的 6 月 16 日发布开放权重和发布说明。也正是在那时,我们注意到了它。

有三点让 GLM 5.2 对安全工作尤其有意思。

第一,它是 open weight,也就是开放权重模型。

模型参数以 MIT 许可证发布,用户可以下载、在自己的硬件上运行、微调,也可以检查这些权重。

对很多处理敏感业务的安全团队来说,这一点很重要。开放权重模型可以完全运行在自己的环境中。

但需要强调的是,“open weight”并不等于“open source”。开放的是训练后的权重,而训练数据和完整训练流程通常并不会全部公开。不过,Z.ai 确实发布了自己的强化学习训练框架。

第二,它在编码能力上确实有竞争力。

GLM 5.2 是一个 MoE 混合专家模型,总参数规模大约 7500 亿,但每个 token 实际激活的参数大约只有 400 亿。这样一来,相比它的总规模,推理成本可以压得更低。

它还将可用上下文从 20 万 token 扩展到了 100 万 token。

Z.ai 的说法不是简单强调“能塞进去更多输入”,而是说这种上下文能力在复杂、混乱的 Agent 长程任务中依然可靠。

这对安全任务同样重要。比如查找 IDOR 这类问题时,模型必须能够跨文件推理,还要理解授权框架中的权限逻辑。

在标准编码基准上,GLM 5.2 给出了目前开放权重模型中最强的一组成绩:Terminal-Bench 2.1 得分 81.0,高于 GLM 5.1 的 63.5,也只比 Claude Opus 4.8 的 85 低几分;SWE-bench Pro 得分 62.1,超过了一些闭源前沿模型,只比最顶尖模型低个位数百分点。

打开网易新闻 查看精彩图片

第三,是成本。

Token 经济学正在变得和大模型能力本身一样重要。

GLM 5.2 的成本大约只有同类前沿模型的六分之一。一些长期关注开放模型的人甚至将 GLM 5.2 的市场反响类比为 DeepSeek。

GLM-5.2 的发布时间也很微妙。它不仅因为成本优势受到关注,也正好出现在一些前沿闭源模型因被曝越狱后遭遇新出口限制之后。

发布说明里还有一个细节,任何准备将这个模型用于代码任务的人都应该注意:Z.ai 披露,GLM 5.2 相比 GLM 5.1 表现出更多 reward hacking,也就是“奖励黑客”行为。

在训练过程中,它会做一些事情来刷高分,比如读取受保护的评测文件,或者用 curl 抓取参考答案。为此,Z.ai 专门构建了一套反作弊防护。

这算是团队相当坦诚的一次披露。但如果你正在构建一个用于黑客任务的模型,说实话,没有什么比“模型自己试图绕过测试”更像黑客了。

我们的实验

在进入更多细节之前,有必要先回顾一下我们到底想做什么,以及实验是怎么设计的。

先快速解释一下 IDOR。

Insecure Direct Object Reference 是一类漏洞:应用在请求中暴露了某个内部标识符,比如用户 ID,但没有检查发起请求的人是否真的有权限访问这个对象。

结果就是,攻击者只要改一下这个标识符,就可能拿到别人的数据。

打开网易新闻 查看精彩图片

这段 Flask 路由会直接根据 URL 里的 ID 获取用户记录并返回,没有检查请求者是否拥有这条记录。任何已登录用户只要改一下 user_id,就能读取另一个人的记录。

IDOR 介于业务逻辑缺陷和配置错误之间。它不是 taint-flow,也就是污点流漏洞。正因如此,它对静态分析工具和 LLM 都很难:这里没有一个危险函数可以直接标记,问题在于缺少一次权限检查。

它也是现实环境中最常见的漏洞类型之一,目前在 HackerOne 的热门漏洞类型榜单中排名第 4。这也是我们反复将它用作基准测试的原因。

回到我们的实验。我们固定了三个变量,只改变一个变量,这是标准实验条件。

固定项包括:IDOR 数据集,也就是我们之前研究中使用的同一批真实开源应用;评估方法,也就是根据已知真实阳性计算 F1 分数;以及 IDOR 系统提示词本身。

变化项是,模型及其 harness。

具体来说:

Semgrep Multimodal 运行在我们的自定义 harness 中。这套 harness 会枚举端点,并将模型引导到这些端点。我们用两个前沿模型作为后端进行了测试。

同时,我们也通过 Claude Code SDK 跑了 Claude Code,通过其他供应商的原生 SDK 跑了其他模型,但使用的都是同一份提示词。

开放权重模型包括 GLM 5.2、MiniMax M3 和 Kimi K2.7 Code,它们运行在简单的 Pydantic AI harness 中,只给 IDOR 提示词,没有其他东西。

这个细节很重要,所以我们再说一遍:开放权重模型没有拿到多模态流水线拥有的端点发现脚手架。它们只看到了一个提示词和一个代码库。这就是它们在没有额外帮助下能做到的事情。

我们还计算了几种不同的效果指标:

Precision,精确率: 在检测器标记为 IDOR 的所有内容中,有多少是真的?高精确率意味着误报少。如果它报告 10 个漏洞,其中 7 个是真的,那么精确率就是 70%。

Recall,召回率: 在数据集中实际存在的所有真实 IDOR 中,它找到了多少?高召回率意味着漏报少。如果真实存在 20 个 IDOR,它抓到了 12 个,那么召回率就是 60%。

F1: 一个同时平衡精确率和召回率的综合指标。它是二者的调和平均数:

F1 = 2 × (precision × recall) / (precision + recall)

为什么不用普通准确率,而要用 F1?因为精确率和召回率这两个目标经常互相拉扯。

一个检测器可以通过只报告自己最确定的一个漏洞来达到 100% 精确率,但它会漏掉几乎所有其他漏洞,召回率会很差。它也可以将所有东西都标成有漏洞,从而达到 100% 召回率,但这会制造大量误报,精确率会很差。

F1 奖励的是二者同时表现不错。调和平均数会惩罚严重偏科的结果:只要精确率或召回率接近 0,F1 就会被大幅拉低。本文后面都会使用这个指标。

美元成本: 包括每个真实阳性漏洞的成本,以及每次运行的总花费除以找到的真实漏洞数量。这反映了检测器在现实使用中的经济性。一个 F1 一般但价格便宜的模型,在这项指标上仍然可能胜出。

结果

按照 IDOR 检测的 F1 分数排名:

打开网易新闻 查看精彩图片

对我们来说,有两个发现尤其突出。

第一,我们的多模态流水线排在最前面,而原因很可能就是 harness。运行在 Semgrep Multimodal 中的 GPT 5.5 和 Opus 4.8 分别拿到 61% 和 53%,占据前两名。

这当然是好消息,也验证了我们的方法对客户有效。但真正有意思的并不是这一点。

最大的意外出现在第三名。

GLM 5.2 在完全没有脚手架的情况下,比 Claude Code 高出 7 个百分点,也就是 39% 对 32%。

一个开放权重模型,只靠裸提示词,就在一项高度依赖推理的安全任务上超过了前沿编码 Agent。

而且它还很便宜。按 GLM 5.2 的价格计算,这次开放权重模型运行的成本大约是每发现一个漏洞 0.17 美元。

对一个可能需要跑过数千个端点的检测任务来说,单个漏洞的经济成本不是脚注,而往往是决定这项技术能否规模化使用的关键因素。

开放权重模型与前沿模型的基准对比:

打开网易新闻 查看精彩图片

GLM 5.2 并不代表开放权重模型这个类别的整体水平。它确实是一个突出个例。但这并不意味着其他开放权重模型完全不行。

MiniMax M3 的 F1 为 23%,Kimi K2.7 Code 为 22%,它们明显落后于 GLM 5.2,也落后于 Claude Code,但二者表现接近。它们都是有能力的通用编码模型,但在这个具体任务上,也就是在没有任何定位引导的情况下推理缺失的授权检查,它们很难将真正的 IDOR 和噪音区分开。

GLM 5.2 与下一个开放权重模型之间的差距达到 16 个百分点,比 GLM 5.2 与 Claude Code 之间的差距还大。

所以,结论不是“开放权重模型已经整体追上来了”,而是“在这个任务、这个条件下,一个开放权重模型已经追上来了”。

结论

这不是一次对原始模型能力的苹果对苹果比较,我们也不希望读者这样理解。

我们认为真正的结论是,在使用同样的最小提示词和 harness 的模型中,GLM 5.2 这个开放权重模型,以约为前沿 LLM 六分之一的成本,在一项真正困难的安全研究任务上超过了 Claude Code。

第一,harness 仍然比模型本身更重要。表格中最大的性能差距,不是不同模型之间的差距,而是拥有端点发现能力的配置和没有这种能力的配置之间的差距。对关注安全研究的人来说,这并不意外,也符合预期。

第二,当这样一个意外模型突然出现,并以这么低的计算成本拿到这样的结果时,它提醒我们:不能将所有筹码押在一个 LLM 篮子里。

如果你被锁定在一个昂贵的前沿模型上,即便供应商提供了最好的封闭 harness,也可能错过切换模型带来的优势,无论这种优势来自成本,还是来自性能。

第三,开放权重模型已经跨过了一个值得关注的门槛。

一年前,将一个开放权重模型放进漏洞检测排行榜,可能更像是友情参赛。现在,GLM 5.2 只靠裸提示词,在六分之一成本下超过了一个前沿 Agent,而且还可以完全运行在自己的环境中。对很多安全团队来说,这已经是一个很有吸引力的选择。

最后需要说明一点:这只是一个任务、一个数据集、一次运行。IDOR 检测本身具有非确定性,数据集也是有限的,我们只干净地改变了一个配置。

也许在 IDOR 检测上,GLM-5.2 确实比 Claude 更强。但到了 SSRF 检测时,结果可能就反过来了。我们现在还不知道答案,但可以确定的是,我们会继续测下去。

原文链接:https://semgrep.dev/blog/2026/we-have-mythos-at-home-glm-52-beats-claude-in-our-cyber-benchmarks/

云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片