GLM 5.2 击败了 Claude|glm|上下文|新论文|模态

Semgrep 用同一套 IDOR 漏洞检测数据集和提示词测试多款模型，结果发现智谱 GLM-5.2 在没有端点发现、上下文筛选等专用脚手架支持的情况下，F1 分数达到 39%，超过 Claude Code 的 32%，且每发现一个漏洞成本约 0.17 美元。

以下为全文。

我们用一组热门开源模型跑了自己的 IDOR 基准测试。这个数据集和提示词，和我们用来评估前沿编码 Agent 的完全相同。

结果让我们很意外。

来自智谱 AI 的开放权重模型 GLM 5.2，在 IDOR 检测上拿到了 39% 的 F1 分数，超过了 Claude Code 的 32%，平均每发现一个漏洞的成本大约只有 0.17 美元。

它仍然落后于 Semgrep 的多模态流水线，后者 F1 分数在 53% 到 61% 之间。但那套流水线运行在专门构建的 harness 里，很多重活都由这套框架完成了。只看那些“除了提示词什么都不给”的模型，最好的开放权重模型已经不再是显而易见的弱者，甚至超过了 Claude Opus 4.8。

其实，我们并不是想评出一个开放权重模型冠军。

我们真正想回答的是一个更窄、也更枯燥的问题：漏洞检测性能到底有多少来自模型本身，又有多少来自模型外面的 harness？

对 Semgrep 来说，这个问题非常重要。因为我们在和客户交流时发现，很多客户正在大量使用 AI Agent 执行安全任务。

这里说的 harness，可以理解为包裹在模型外面的一套脚手架。它负责将代码仓库喂给模型，决定模型能看到什么，解析模型输出，并让模型围绕任务循环执行。

我们的内部多模态流水线就运行在一套 harness 里，而且这套 harness 是专门为静态分析设计的。

我们已经在内部测试了一段时间，工作流主要用于寻找 IDOR，也就是 Insecure Direct Object References，不安全的直接对象引用。这类问题本质上是访问控制问题，可以粗略理解为：你正在访问属于另一个用户的东西。

我们的 harness 会枚举应用的端点，并通过代码筛出重要上下文，然后将模型直接指向这些位置。这已经提供了大量结构化信息。但就像前面说的，我们原本并不是要回答“哪个开放权重模型最好”这个问题。

这次测试中的模型没有拿到这些结构化支持。它们只是运行在一个简单的 Pydantic AI harness 里，使用的也是我们给其他 LLM 供应商模型的同一份 IDOR 提示词。没有端点发现，没有引导式导航。

当然，我们确实给了一点帮助，比“这是代码，去找漏洞”稍微多一些：我们提供了一些搜索策略，也给了一些关于 IDOR 特征的提示。

所以，这个实验一开始其实是想比较“提示词”和“harness”的作用。

但在测试过程中，我们确实被震住了：一个开放权重模型，在没有我们这些脚手架的情况下，超过了一个前沿编码 Agent。

GLM-5.2 登场

如果你没听说过 GLM-5.2，不用担心，我们之前也没听过。直到我们在社交媒体上看到它，才决定将它加入基准测试。

GLM 5.2 是智谱 AI，也就是 Z.ai，推出的最新模型。它于 2026 年 6 月 13 日星期六向 GLM Coding Plan 会员开放，三天后的 6 月 16 日发布开放权重和发布说明。也正是在那时，我们注意到了它。

有三点让 GLM 5.2 对安全工作尤其有意思。

第一，它是 open weight，也就是开放权重模型。

模型参数以 MIT 许可证发布，用户可以下载、在自己的硬件上运行、微调，也可以检查这些权重。

对很多处理敏感业务的安全团队来说，这一点很重要。开放权重模型可以完全运行在自己的环境中。

但需要强调的是，“open weight”并不等于“open source”。开放的是训练后的权重，而训练数据和完整训练流程通常并不会全部公开。不过，Z.ai 确实发布了自己的强化学习训练框架。

第二，它在编码能力上确实有竞争力。

GLM 5.2 是一个 MoE 混合专家模型，总参数规模大约 7500 亿，但每个 token 实际激活的参数大约只有 400 亿。这样一来，相比它的总规模，推理成本可以压得更低。

它还将可用上下文从 20 万 token 扩展到了 100 万 token。

Z.ai 的说法不是简单强调“能塞进去更多输入”，而是说这种上下文能力在复杂、混乱的 Agent 长程任务中依然可靠。

这对安全任务同样重要。比如查找 IDOR 这类问题时，模型必须能够跨文件推理，还要理解授权框架中的权限逻辑。

在标准编码基准上，GLM 5.2 给出了目前开放权重模型中最强的一组成绩：Terminal-Bench 2.1 得分 81.0，高于 GLM 5.1 的 63.5，也只比 Claude Opus 4.8 的 85 低几分；SWE-bench Pro 得分 62.1，超过了一些闭源前沿模型，只比最顶尖模型低个位数百分点。

第三，是成本。

Token 经济学正在变得和大模型能力本身一样重要。

GLM 5.2 的成本大约只有同类前沿模型的六分之一。一些长期关注开放模型的人甚至将 GLM 5.2 的市场反响类比为 DeepSeek。

GLM-5.2 的发布时间也很微妙。它不仅因为成本优势受到关注，也正好出现在一些前沿闭源模型因被曝越狱后遭遇新出口限制之后。

发布说明里还有一个细节，任何准备将这个模型用于代码任务的人都应该注意：Z.ai 披露，GLM 5.2 相比 GLM 5.1 表现出更多 reward hacking，也就是“奖励黑客”行为。

在训练过程中，它会做一些事情来刷高分，比如读取受保护的评测文件，或者用 curl 抓取参考答案。为此，Z.ai 专门构建了一套反作弊防护。

这算是团队相当坦诚的一次披露。但如果你正在构建一个用于黑客任务的模型，说实话，没有什么比“模型自己试图绕过测试”更像黑客了。

我们的实验

在进入更多细节之前，有必要先回顾一下我们到底想做什么，以及实验是怎么设计的。

先快速解释一下 IDOR。

Insecure Direct Object Reference 是一类漏洞：应用在请求中暴露了某个内部标识符，比如用户 ID，但没有检查发起请求的人是否真的有权限访问这个对象。

结果就是，攻击者只要改一下这个标识符，就可能拿到别人的数据。

这段 Flask 路由会直接根据 URL 里的 ID 获取用户记录并返回，没有检查请求者是否拥有这条记录。任何已登录用户只要改一下 user_id，就能读取另一个人的记录。

IDOR 介于业务逻辑缺陷和配置错误之间。它不是 taint-flow，也就是污点流漏洞。正因如此，它对静态分析工具和 LLM 都很难：这里没有一个危险函数可以直接标记，问题在于缺少一次权限检查。

它也是现实环境中最常见的漏洞类型之一，目前在 HackerOne 的热门漏洞类型榜单中排名第 4。这也是我们反复将它用作基准测试的原因。

回到我们的实验。我们固定了三个变量，只改变一个变量，这是标准实验条件。

固定项包括：IDOR 数据集，也就是我们之前研究中使用的同一批真实开源应用；评估方法，也就是根据已知真实阳性计算 F1 分数；以及 IDOR 系统提示词本身。

变化项是，模型及其 harness。

具体来说：

Semgrep Multimodal 运行在我们的自定义 harness 中。这套 harness 会枚举端点，并将模型引导到这些端点。我们用两个前沿模型作为后端进行了测试。

同时，我们也通过 Claude Code SDK 跑了 Claude Code，通过其他供应商的原生 SDK 跑了其他模型，但使用的都是同一份提示词。

开放权重模型包括 GLM 5.2、MiniMax M3 和 Kimi K2.7 Code，它们运行在简单的 Pydantic AI harness 中，只给 IDOR 提示词，没有其他东西。

这个细节很重要，所以我们再说一遍：开放权重模型没有拿到多模态流水线拥有的端点发现脚手架。它们只看到了一个提示词和一个代码库。这就是它们在没有额外帮助下能做到的事情。

我们还计算了几种不同的效果指标：

Precision，精确率： 在检测器标记为 IDOR 的所有内容中，有多少是真的？高精确率意味着误报少。如果它报告 10 个漏洞，其中 7 个是真的，那么精确率就是 70%。

Recall，召回率： 在数据集中实际存在的所有真实 IDOR 中，它找到了多少？高召回率意味着漏报少。如果真实存在 20 个 IDOR，它抓到了 12 个，那么召回率就是 60%。

F1： 一个同时平衡精确率和召回率的综合指标。它是二者的调和平均数：

F1 = 2 × (precision × recall) / (precision + recall)

为什么不用普通准确率，而要用 F1？因为精确率和召回率这两个目标经常互相拉扯。

一个检测器可以通过只报告自己最确定的一个漏洞来达到 100% 精确率，但它会漏掉几乎所有其他漏洞，召回率会很差。它也可以将所有东西都标成有漏洞，从而达到 100% 召回率，但这会制造大量误报，精确率会很差。

F1 奖励的是二者同时表现不错。调和平均数会惩罚严重偏科的结果：只要精确率或召回率接近 0，F1 就会被大幅拉低。本文后面都会使用这个指标。

美元成本： 包括每个真实阳性漏洞的成本，以及每次运行的总花费除以找到的真实漏洞数量。这反映了检测器在现实使用中的经济性。一个 F1 一般但价格便宜的模型，在这项指标上仍然可能胜出。

结果

按照 IDOR 检测的 F1 分数排名：

对我们来说，有两个发现尤其突出。

第一，我们的多模态流水线排在最前面，而原因很可能就是 harness。运行在 Semgrep Multimodal 中的 GPT 5.5 和 Opus 4.8 分别拿到 61% 和 53%，占据前两名。

这当然是好消息，也验证了我们的方法对客户有效。但真正有意思的并不是这一点。

最大的意外出现在第三名。

GLM 5.2 在完全没有脚手架的情况下，比 Claude Code 高出 7 个百分点，也就是 39% 对 32%。

一个开放权重模型，只靠裸提示词，就在一项高度依赖推理的安全任务上超过了前沿编码 Agent。

而且它还很便宜。按 GLM 5.2 的价格计算，这次开放权重模型运行的成本大约是每发现一个漏洞 0.17 美元。

对一个可能需要跑过数千个端点的检测任务来说，单个漏洞的经济成本不是脚注，而往往是决定这项技术能否规模化使用的关键因素。

开放权重模型与前沿模型的基准对比：

GLM 5.2 并不代表开放权重模型这个类别的整体水平。它确实是一个突出个例。但这并不意味着其他开放权重模型完全不行。

MiniMax M3 的 F1 为 23%，Kimi K2.7 Code 为 22%，它们明显落后于 GLM 5.2，也落后于 Claude Code，但二者表现接近。它们都是有能力的通用编码模型，但在这个具体任务上，也就是在没有任何定位引导的情况下推理缺失的授权检查，它们很难将真正的 IDOR 和噪音区分开。

GLM 5.2 与下一个开放权重模型之间的差距达到 16 个百分点，比 GLM 5.2 与 Claude Code 之间的差距还大。

所以，结论不是“开放权重模型已经整体追上来了”，而是“在这个任务、这个条件下，一个开放权重模型已经追上来了”。

结论

这不是一次对原始模型能力的苹果对苹果比较，我们也不希望读者这样理解。

我们认为真正的结论是，在使用同样的最小提示词和 harness 的模型中，GLM 5.2 这个开放权重模型，以约为前沿 LLM 六分之一的成本，在一项真正困难的安全研究任务上超过了 Claude Code。

第一，harness 仍然比模型本身更重要。表格中最大的性能差距，不是不同模型之间的差距，而是拥有端点发现能力的配置和没有这种能力的配置之间的差距。对关注安全研究的人来说，这并不意外，也符合预期。

第二，当这样一个意外模型突然出现，并以这么低的计算成本拿到这样的结果时，它提醒我们：不能将所有筹码押在一个 LLM 篮子里。

如果你被锁定在一个昂贵的前沿模型上，即便供应商提供了最好的封闭 harness，也可能错过切换模型带来的优势，无论这种优势来自成本，还是来自性能。

第三，开放权重模型已经跨过了一个值得关注的门槛。

一年前，将一个开放权重模型放进漏洞检测排行榜，可能更像是友情参赛。现在，GLM 5.2 只靠裸提示词，在六分之一成本下超过了一个前沿 Agent，而且还可以完全运行在自己的环境中。对很多安全团队来说，这已经是一个很有吸引力的选择。

最后需要说明一点：这只是一个任务、一个数据集、一次运行。IDOR 检测本身具有非确定性，数据集也是有限的，我们只干净地改变了一个配置。

也许在 IDOR 检测上，GLM-5.2 确实比 Claude 更强。但到了 SSRF 检测时，结果可能就反过来了。我们现在还不知道答案，但可以确定的是，我们会继续测下去。