大语言模型越来越强,AI生成文本越来越难以检测?也许不用担心,越来越强的大语言模型本身也是越来越强的AI生成文本检测器!

大语言模型广泛使用,引发人们对虚假新闻、恶意产品评论和剽窃等问题的担忧。本文提出了一种新的文本检测方法——Glimpse,打破文本检测的白盒方法和较强大的黑盒私有模型之间的屏障,获得检测准确率的大幅提升(检测错误率降低 50%以上)。无需本地模型,无需生成任何新内容,一次OpenAI API调用就可以获得任意来源文本的准确检测结果。

论文题目: Glimpse: Enabling White-Box Methods to Use Proprietary Models for Zero-Shot LLM-Generated Text Detection 论文链接: https://openreview.net/forum?id=an3fugFA23 代码链接: https://github.com/baoguangsheng/glimpse

一、研究动机

大型语言模型(LLMs)能够生成接近人类的流畅且连贯的文本内容,在各个行业(如新闻、社交媒体和教育)中提升生产力的同时,也引发了人们对虚假信息、误导内容和剽窃等风险的担忧。为了构建可信赖的人工智能系统,我们迫切需要高质量、自动化的检测工具。然而,随着大型语言模型能力的增强,其生成的文本内容越来越接近人类的水平,导致越来越难以准确检测。

现有的检测器按其使用检测模型的方式可以分为两类:白盒方法和黑盒方法。白盒方法依赖检测模型的内部状态或者输出分布,所以一般需要本地运行开源模型。黑盒方法通过API访问检测模型,所以能使用相对更强大的私有大模型。虽然黑盒方法能使用更强的大模型,但由于方法本身的限制,其检测准确率和检测效率普遍低于白盒方法。那是否能够将更准确的白盒方法和更强大的黑盒私有模型相结合呢?受API访问方式的限制,这看起来似乎不可能。

为了突破这种限制,我们重新审视了白盒方法所使用检测模型的预测分布,提出了一种新的方法 —— Glimpse,从私有模型API返回的部分信息,来估算模型的预测分布,进而计算相应的检测指标。从而打破了白盒方法和私有模型之间的屏障,做到了强强联手。

使用更强大的私有模型,如GPT-3.5,Glimpse成功地将英文语料(涉及五个源模型和三个领域)上的检测准确率(AUROC)从0.90提升到0.95,在其它六个全球主要语言上将准确率从0.88提升到0.97,检测错误率降低 50%以上。同时,实验结果也展示了更强的语言模型也是更强的检测器

二、方法

图1:Glimpse概率分布估计方法

我们提出了一种概率分布估计方法——Glimpse,旨在从模型API返回的部分观测值中估计完整的分布。该观测值包括输入token的概率值(logprobs)以及每个token位置上top-K(至少一个)token的概率。以Fast-DetectGPT为例(如图1所示),我们首先从GPT模型中获取top-K候选的概率,然后利用这些概率估计整个词汇表上的分布。其基本思想是寻找最高概率与全词汇表概率之间的经验性关联。为此,我们考察了参数化的几何分布、Zipf分布以及基于数据训练的MLP模型来建模这种关联。通过Glimpse,我们还将诸如熵(Entropy)、排名(Rank)和对数排名(LogRank)等方法成功扩展到私有模型上。

概率分布估计的基本原理是使用一个参数化的分布函数,根据已经观测到的top-K概率值,唯一确定分布函数的参数,从而获得完整分布的函数表达。在每个token位置上,我们观察得到top-K token的概率 ,根据这些概率我们估计 的取值,同时满足离散分布总概率为1的约束。具体来说,我们考察了以下三种分布函数。

几何分布(Geometric Distribution)

其中 为未知参数,需要根据top-K概率和总概率约束来求解。

Zipf分布(Zipfian Distribution):

其中 和 为未知参数。根据top-K概率,我们可以求解一个最佳的参数组合。

MLP预测分布:

其中 为MLP模型参数。我们使用一个两层的MLP网络,输入top-K概率,预测其它概率。我们使用从gpt-neo-2.7B上采样的真实分布样本训练MLP网络,在预测时MLP模型保持不变。

图2:模型的真实分布和不同方法的预测分布

具体如图2所示,我们来对比一下不同模型的真实分布和不同估计方法的预测分布。首先看左侧(a)图,总体上不同模型的分布走向一致。我们重点关注“*”所代表的分布长尾部分的占比。可以看到,模型越大,这部分占比越小。相应的,其对整个分布的影响也越小。然后看右侧(b)图不同估计方法的预测分布。总的来说,Zipfian分布和MLP分布比较接近,而Geometric分布在长尾部分衰减的很快。

三、实验结果

预测分布的有效性

图3:预测分布和真实分布的差异,以及和检测指标之间的关系\

我们使用开源模型来检验概率分布估计的有效性。分别研究了预测分布和真实分布的差异,以及这种差异和检测指标的关联。首先,我们使用预测分布和真实分布的KL散度来度量其分布差异。如左图Figure 2所示,总体上top-K越大相应的KL散度越小。三个估计方法中,Geometric分布的KL散度大于其它两种。

然后,我们观察预测分布质量和检测效果的关联。如右图Figure 3所示,总体上KL散度越大(也就是说预测分布和真实分布差异越大),其对应的检测准确率(AUROC)越小。但在三种估算方法上表现并不一样,Geometric分布虽然KL散度整体大一些,但检测准确率整体却高一些。对比红星所代表的使用真实分布获得的检测准确率,我们可以看到在Fast-Detect和LogRank上,Geometric分布所获得检测准确率并没有下降多少。而在Rank方法上,估计分布所获得的准确率反而比真实分布的检测准确率高。

更强的AI文本检测效果

表1:五个大语言模型生成语料上的对比

在五个最新大语言模型生成的英文语料上,包括新闻、创意写作和技术问答领域,我们对比了使用开源模型gpt-neo-2.7B的基线,使用gpt-3.5的Fast-Detect将AUROC 从平均0.90提升到0.95。

更显著的多语言检测效果

表2:六个语言上的检测准确率的对比

在多语言场景下,效果更加明显。使用gpt-3.5的Fast-Detect将AUROC从使用gpt-neo-2.7B的平均0.88提升到0.97。

低误报率条件下更高的召回率

图4:在误报率1%和10%(红竖线)下的对比

在低误报率条件下,我们可以看到使用更强的私有模型,Fast-Detect在不同的源模型生成的语料上都获得了更高的召回率。

四、结语

主要结论: 使用预测的概率分布我们也能做到较高的AI生成文本检测准确率,说明这条技术路径可行。使用更强大的模型,我们能获得更高的检测准确率,说明更强大的模型本身也是更强大的检测器。我们也许不用担心模型越来越强生成的文本越来越难以检测,因为越来越强的大语言模型本身也是越来越强的AI 生成文本检测器。

未来展望:Glimpse使得文本检测白盒方法突破现有的模型限制,产生了一条新的研究路径。同时,相应的概率分布估计方法,也有可能帮助到其它方向的研究,比如幻觉检测等。

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线600+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈