复旦等提出「中国版GPT-Zero」！毕业论文AI率自查神器｜AAAI 2025|aaai|gpt|复旦|实验|自查神器

新智元报道

编辑：LRST 好困

【新智元导读】复旦大学等机构的研究人员最新提出的AI内容检测器ImBD涵盖多任务检测（润色、扩写、改写、纯生成），支持英语、中文、西班牙语、葡萄牙语等多种主流语言；仅需500对样本、5分钟训练时间，就能实现超越商用检测器！

现如今，大语言模型（LLMs）已经在文本生成领域达到了接近人类水平的能力。

然而，随着这些模型被广泛应用于文本创作，其在考试、学术论文等领域的滥用引发了严重关注。特别是在当前场景下，用户往往不是完全依赖AI生成内容，而是利用AI对人类原创内容进行修改和润色，这种混合型的内容给检测带来了前所未有的挑战。

传统的机器生成文本检测方法在识别纯AI生成内容时表现良好，但面对机器修订文本时常常误判。这是因为机器修订文本通常只对原始人类文本做出细微改动，同时包含了大量人类创作的特征和领域专业术语，这使得基于概率统计的传统检测方法难以准确识别。

近期，来自复旦大学、华南理工大学、武汉大学以及UCSD、UIUC等机构的研究团队提出了创新的检测框架ImBD（Imitate Before Detect），从「模仿」的角度切入：通过先学习和模仿机器的写作风格特征（如特定词汇偏好、句式结构等），再基于这些特征进行检测。

论文地址：https://arxiv.org/abs/2412.10432

项目主页：https://machine-text-detection.github.io/ImBD

代码链接：https://github.com/Jiaqi-Chen-00/ImBD

在线演示：https://ai-detector.fenz.ai/

研究团队创新性地引入了风格偏好优化（Style Preference Optimization, SPO），使评分模型能够精确捕捉机器修订的细微特征。

实验表明，该方法在检测GPT-3.5和GPT-4修改的文本时，准确率分别提升了15.16%和19.68%，仅需1000个样本和5分钟训练就能超越商业检测系统的性能。该成果已被AAAI2025接收（中稿率23.4%）。

问题背景

随着大语言模型（LLMs）的快速发展和广泛应用，AI辅助写作已经成为一种普遍现象。

然而，这种技术的普及也带来了新的挑战，特别是在需要严格管控AI使用的领域，如学术写作、新闻报道等。与传统的纯机器生成文本不同，当前更常见的场景是用户利用AI对人类原创内容进行修改和润色，这种混合型的内容使得检测工作变得异常困难。

如图1(a-c)所示，相比于人类原创文本和纯机器生成文本之间的明显差异，机器修订文本往往与原始人类文本只有细微的改动。

图1 人类撰写、机器生成和机器修订文本的对比分析

传统的机器生成文本检测方法主要依赖于预训练语言模型的token概率分布特征，这些方法假设机器生成的文本通常具有更高的对数似然或负概率曲率。然而，当面对机器修订文本时，这些方法的性能显著下降。

如图1(d)所示，在检测机器修订文本时，即使是最先进的Fast-DetectGPT [1]方法也出现了明显的性能下降。

这种性能降低主要源于两个方面：

- 首先，机器修订文本保留了大量人类创作的内容和领域特定术语，这些特征往往会误导检测器将文本判定为人类撰写；

- 其次，随着GPT-4等新一代语言模型的出现，机器的写作风格变得更加微妙和难以捕捉。

特别值得注意的是，机器修订文本的特征往往体现在一些细微的文体特征上。如图1所示的例子，这些特征包括独特的词语选择（如倾向使用「stunning」、「once-in-a-lifetime」等词）、复杂的句子结构（如更多的从句使用）以及统一的段落组织方式。

这些风格特征虽然细微，但却是区分人类原创和机器修订文本的关键线索。然而，由于这些特征往往与人类创作的内容紧密交织，现有的检测方法难以有效捕捉和利用这些特征，这就导致了检测准确率的下降。

因此，如何在保留了人类创作内容的文本上准确识别机器修订的痕迹，是当前亟待解决的关键问题。这不仅关系到学术诚信的维护，也影响着在线信息的可信度评估。开发一种能够有效识别机器修订文本的检测方法，对于维护不同领域的内容质量和可信度具有重要意义。

基于风格模仿的机器修改文本检测框架ImBD

ImBD的核心创新在于将风格感知机制引入机器修改文本检测领域，首次提出了结合偏好优化和风格概率曲线的双重检测框架。

不同于传统方法仅关注内容层面的概率差异，本文通过精确捕捉机器修改文本的风格特征，有效解决了当前检测方法在处理部分人工内容场景下的局限性。

问题形式化

在机器修改文本检测任务中，我们将输入文本表示为标记序列，其中n为序列长度。

核心目标是构建一个决策函数，通过评分模型判定文本是人类撰写（输出0）还是经过机器修改（输出1）。这种形式化将复杂的文本分析问题转化为可处理的二元分类任务。

基础理论

传统检测方法主要基于一个关键观察：机器生成倾向于选择高概率标记，而人类写作则展现更多样的概率分布。这种差异可以通过如下不等式形式化表达：

其中，原始人类文本记为，机器修订的文本记为，等式左端表示机器修改文本的对数概率，通过计算在扰动采样分布下的期望值来估计；右端则表示人类写作文本的对数概率及其对应的扰动期望值。这个不等式反映了机器生成文本在扰动后往往出现更显著的概率下降，而人类写作文本则保持相对稳定的概率分布特征。

如图2（左）所示，在纯机器生成文本中，这种差异表现得最为明显。然而，当涉及机器修改文本时，如图2（右）所展示的，两类文本的概率分布会出现显著重叠，导致传统检测方法失效。

图2 基于概率曲线的人机文本区分效果对比图

偏好优化的风格模仿

为克服上述限制，我们提出通过偏好优化来增强模型对机器风格的感知能力。如图3(b)所示，这一机制的核心是构建文本对之间的偏好关系：将原始人类文本与其机器修改版本配对，通过这种配对可以在保持内容一致的同时突出风格差异。

图3 LLM风格偏好优化的模拟过程

基于Bradley-Terry模型，定义偏好分布：

其中，表示偏好机器修改文本而非人类文本的概率，这个概率随着奖励差值的增加而增长。为了实现这一目标，奖励函数被定义为：

这里的代表参考模型（通常是的初始状态）。

通过这种奖励函数的设计，我们用策略模型而非奖励模型来表达偏好数据的概率。对于一个包含内容等价对的训练数据集D，优化目标可以表示为：

通过优化这个目标函数，模型能够逐步调整以偏好机器修改文本的风格特征。如图3(a)所示，这种调整使得模型对机器风格特征（如「delve」这样的词）表现出更强的偏好。

最终优化后的模型记为，代表了一个与机器风格高度对齐的评分模型。

基于风格概率曲线的检测

在风格对齐的基础上，研究人员引入风格条件概率曲线（styleconditional probability curvature, Style-CPC）作为最终的检测机制：

通过这种度量，能够有效量化文本样本与机器风格的偏离程度。如图2对比所示，优化后的模型能够显著减少人类文本和机器修改文本分布的重叠，最终通过简单的阈值策略实现准确检测：

这种基于风格感知的检测框架不仅提高了对机器修改文本的识别准确率，更为重要的是，它为解决高级语言模型输出检测这一愈发重要的问题提供了新的思路。

通过将注意力从内容转向风格特征，该方法展现出较强的泛化能力，特别是在处理包含用户提供内容的复杂场景时表现出明显优势。

实验结果

在GPT系列模型上的检测性能

在polish任务上，相比Fast-DetectGPT，ImBD在检测GPT-3.5 [2] 和GPT-4o [3] 修订的文本时分别提升了15.16%和19.68%的性能；相比有监督模型RoBERTa-large，ImBD在GPT-3.5和GPT-4o的文本检测上分别提高了32.91%和47.06%的性能。在保持高检测性能的同时,推理速度仍保持高效,每1000词仅需0.72秒。

仅使用1000个样本和5分钟的SPO训练，ImBD就达到0.9449的AUROC分数，超过了使用大规模数据训练的商业检测工具GPTZero [4] （0.9351）。

在开源模型上的检测性能

在检测Qwen2-7B [5] 、Llama-3 [6] 、Mixtral-7B [7] 和Deepseek-7B [8] 四个开源模型修改的文本时，ImBD方法在XSum、SQuAD和WritingPrompts三个数据集上的平均AUROC达到0.9550，显著优于Fast-DetectGPT的0.8261。

不同任务场景下的检测鲁棒性评估

ImBD方法在rewrite（0.8739）、expand（0.9758)、polish（0.9707）和generate（0.9996）四个任务上全面超越现有方法,平均性能比Fast-DetectGPT提升22.12%，证明了其在不同任务和用户指令下的稳健性。

消融实验

与未使用模仿策略的基线模型相比，采用SPO优化的ImBD方法在GPT-3.5和GPT-4o的文本检测上AUROC分别提升了16%和20%；相比使用3倍训练数据的SFT（Supervised Fine-Tuning）方法，ImBD的AUROC在GPT-3.5和GPT-4o上分别高出30%和24%。

文本长度敏感性研究

当文本长度从30词增加到180词时，ImBD方法始终保持领先优势，且随着文本长度增加检测准确率稳步提升，展现出卓越的长文本处理能力。

多语言检测能力评估

ImBD在多语言文本检测中展示出优异的泛化能力，在西班牙语、葡萄牙语和中文的检测中分别达到0.8487、0.8214和0.8792的AUROC分数，全面超越Fast-DetectGPT等基线方法，且在部分基线方法（如DNA-GPT [9] ）失效的中文测试中仍保持稳定性能。

总结

这项工作提出了「模仿后检测」（Imitate Before Detect）范式来检测机器修改的文本，其核心是学习模仿LLM的写作风格。

具体而言，论文提出了风格偏好优化方法来使检测器对齐机器写作风格，并利用基于风格的条件概率曲率来量化对数概率差异，从而实现有效检测。通过广泛的评估实验，ImBD方法相比现有最先进的方法展现出显著的性能提升。

作者简介

论文的主要研究者来自复旦大学、华南理工大学、武汉大学、Fenz.AI以及UCSD、UIUC等机构。

论文一作陈家棋，复旦大学硕士生，斯坦福大学访问学生学者。主要研究领域为计算机视觉和智能体。

李祖超，现任武汉大学计算机学院副研究员，在上海交通大学完成博士学位，曾在日本国立信息通信技术研究所(NICT)担任特别技术研究员。

张捷，现任复旦大学类脑智能科学与技术研究院研究员，博士生导师。2008年于香港理工大学获博士学位。曾获“香港青年科学家奖”提名奖。为牛津大学“系统建模分析与预测”实验室荣誉成员。

参考资料：

[1]. Bao G, Zhao Y, Teng Z, et al. Fast-detectgpt: Efficient zero-shot detection of machine-generated text via conditional probability curvature. arXiv preprint arXiv:2310.05130, 2023.

[2]. OpenAI. ChatGPT: Optimizing Language Models for Dialogue. http://web.archive.org/web/20230109000707/ https://openai.com/blog/chatgpt/, 2022.

[3]. Achiam J, Adler S, Agarwal S, et al. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2023.

[4]. Tian E, Cui A, et al. GPTZero: Towards detection of AIgenerated text using zero-shot and supervised methods. https://gptzero.me, 2023.

[5]. Yang A, Yang B, Hui B, et al. Qwen2 technical report. arXiv preprint arXiv:2407.10671, 2024.

[6]. Meta A I. Introducing meta llama 3: The most capable openly available llm to date. Meta AI, 2024.

[7]. Jiang A Q, Sablayrolles A, Roux A, et al. Mixtral of experts. arXiv preprint arXiv:2401.04088, 2024.

[8]. Bi X, Chen D, Chen G, et al. Deepseek llm: Scaling open-source language models with longtermism. arXiv preprint arXiv:2401.02954, 2024.

[9]. Yang X, Cheng W, Wu Y, et al. Dna-gpt: Divergent n-gram analysis for training-free detection of gpt-generated text. arXiv preprint arXiv:2305.17359, 2023.