ICLR 2025 | 无需本地模型，一次OpenAI API调用准确检测AI生成文本|openai|top|散度|本地模型|调用

大语言模型越来越强，AI生成文本越来越难以检测？也许不用担心，越来越强的大语言模型本身也是越来越强的AI生成文本检测器！

大语言模型广泛使用，引发人们对虚假新闻、恶意产品评论和剽窃等问题的担忧。本文提出了一种新的文本检测方法——Glimpse，打破文本检测的白盒方法和较强大的黑盒私有模型之间的屏障，获得检测准确率的大幅提升（检测错误率降低 50%以上）。无需本地模型，无需生成任何新内容，一次OpenAI API调用就可以获得任意来源文本的准确检测结果。

论文题目： Glimpse: Enabling White-Box Methods to Use Proprietary Models for Zero-Shot LLM-Generated Text Detection 论文链接： https://openreview.net/forum?id=an3fugFA23 代码链接： https://github.com/baoguangsheng/glimpse

一、研究动机

大型语言模型（LLMs）能够生成接近人类的流畅且连贯的文本内容，在各个行业（如新闻、社交媒体和教育）中提升生产力的同时，也引发了人们对虚假信息、误导内容和剽窃等风险的担忧。为了构建可信赖的人工智能系统，我们迫切需要高质量、自动化的检测工具。然而，随着大型语言模型能力的增强，其生成的文本内容越来越接近人类的水平，导致越来越难以准确检测。

现有的检测器按其使用检测模型的方式可以分为两类：白盒方法和黑盒方法。白盒方法依赖检测模型的内部状态或者输出分布，所以一般需要本地运行开源模型。黑盒方法通过API访问检测模型，所以能使用相对更强大的私有大模型。虽然黑盒方法能使用更强的大模型，但由于方法本身的限制，其检测准确率和检测效率普遍低于白盒方法。那是否能够将更准确的白盒方法和更强大的黑盒私有模型相结合呢？受API访问方式的限制，这看起来似乎不可能。

为了突破这种限制，我们重新审视了白盒方法所使用检测模型的预测分布，提出了一种新的方法 —— Glimpse，从私有模型API返回的部分信息，来估算模型的预测分布，进而计算相应的检测指标。从而打破了白盒方法和私有模型之间的屏障，做到了强强联手。

使用更强大的私有模型，如GPT-3.5，Glimpse成功地将英文语料（涉及五个源模型和三个领域）上的检测准确率（AUROC）从0.90提升到0.95，在其它六个全球主要语言上将准确率从0.88提升到0.97，检测错误率降低 50%以上。同时，实验结果也展示了更强的语言模型也是更强的检测器。

二、方法

图1：Glimpse概率分布估计方法

我们提出了一种概率分布估计方法——Glimpse，旨在从模型API返回的部分观测值中估计完整的分布。该观测值包括输入token的概率值（logprobs）以及每个token位置上top-K（至少一个）token的概率。以Fast-DetectGPT为例（如图1所示），我们首先从GPT模型中获取top-K候选的概率，然后利用这些概率估计整个词汇表上的分布。其基本思想是寻找最高概率与全词汇表概率之间的经验性关联。为此，我们考察了参数化的几何分布、Zipf分布以及基于数据训练的MLP模型来建模这种关联。通过Glimpse，我们还将诸如熵（Entropy）、排名（Rank）和对数排名（LogRank）等方法成功扩展到私有模型上。

概率分布估计的基本原理是使用一个参数化的分布函数，根据已经观测到的top-K概率值，唯一确定分布函数的参数，从而获得完整分布的函数表达。在每个token位置上，我们观察得到top-K token的概率，根据这些概率我们估计的取值，同时满足离散分布总概率为1的约束。具体来说，我们考察了以下三种分布函数。

几何分布（Geometric Distribution）：

其中为未知参数，需要根据top-K概率和总概率约束来求解。

Zipf分布（Zipfian Distribution）:

其中和为未知参数。根据top-K概率，我们可以求解一个最佳的参数组合。

MLP预测分布：

其中为MLP模型参数。我们使用一个两层的MLP网络，输入top-K概率，预测其它概率。我们使用从gpt-neo-2.7B上采样的真实分布样本训练MLP网络，在预测时MLP模型保持不变。

图2：模型的真实分布和不同方法的预测分布

具体如图2所示，我们来对比一下不同模型的真实分布和不同估计方法的预测分布。首先看左侧（a）图，总体上不同模型的分布走向一致。我们重点关注“*”所代表的分布长尾部分的占比。可以看到，模型越大，这部分占比越小。相应的，其对整个分布的影响也越小。然后看右侧（b）图不同估计方法的预测分布。总的来说，Zipfian分布和MLP分布比较接近，而Geometric分布在长尾部分衰减的很快。

三、实验结果

预测分布的有效性

图3：预测分布和真实分布的差异，以及和检测指标之间的关系\

我们使用开源模型来检验概率分布估计的有效性。分别研究了预测分布和真实分布的差异，以及这种差异和检测指标的关联。首先，我们使用预测分布和真实分布的KL散度来度量其分布差异。如左图Figure 2所示，总体上top-K越大相应的KL散度越小。三个估计方法中，Geometric分布的KL散度大于其它两种。

然后，我们观察预测分布质量和检测效果的关联。如右图Figure 3所示，总体上KL散度越大（也就是说预测分布和真实分布差异越大），其对应的检测准确率（AUROC）越小。但在三种估算方法上表现并不一样，Geometric分布虽然KL散度整体大一些，但检测准确率整体却高一些。对比红星所代表的使用真实分布获得的检测准确率，我们可以看到在Fast-Detect和LogRank上，Geometric分布所获得检测准确率并没有下降多少。而在Rank方法上，估计分布所获得的准确率反而比真实分布的检测准确率高。

更强的AI文本检测效果

表1：五个大语言模型生成语料上的对比

在五个最新大语言模型生成的英文语料上，包括新闻、创意写作和技术问答领域，我们对比了使用开源模型gpt-neo-2.7B的基线，使用gpt-3.5的Fast-Detect将AUROC 从平均0.90提升到0.95。

更显著的多语言检测效果

表2：六个语言上的检测准确率的对比

在多语言场景下，效果更加明显。使用gpt-3.5的Fast-Detect将AUROC从使用gpt-neo-2.7B的平均0.88提升到0.97。

低误报率条件下更高的召回率

图4：在误报率1%和10%（红竖线）下的对比

在低误报率条件下，我们可以看到使用更强的私有模型，Fast-Detect在不同的源模型生成的语料上都获得了更高的召回率。

四、结语

主要结论：使用预测的概率分布我们也能做到较高的AI生成文本检测准确率，说明这条技术路径可行。使用更强大的模型，我们能获得更高的检测准确率，说明更强大的模型本身也是更强大的检测器。我们也许不用担心模型越来越强生成的文本越来越难以检测，因为越来越强的大语言模型本身也是越来越强的AI 生成文本检测器。

未来展望：Glimpse使得文本检测白盒方法突破现有的模型限制，产生了一条新的研究路径。同时，相应的概率分布估计方法，也有可能帮助到其它方向的研究，比如幻觉检测等。

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（