为何识别AI撰写文本如此棘手？连智能也感到困惑|sectiontitle|信号|新论文|检测器|示例|语料库

人们和机构正在努力应对人工智能生成文本的后果。教师想知道学生的作品是否反映了他们自己的理解；消费者想知道广告是由人类还是机器撰写的。

制定管理人工智能生成内容的规则相对容易。执行这些规则则依赖于更复杂的事情：可靠地检测一段文本是否是由人工智能生成的。

一些研究调查了人类是否能够检测人工智能生成的文本。例如，使用人工智能写作工具较多的人被证明能够准确识别AI生成的文本。人类评估小组甚至可以在受控环境下超过自动化工具。然而，这种专业知识并不普遍，个人判断可能不一致。因此，需要大规模一致性的机构转向自动化的人工智能文本检测器。

人工智能文本检测的问题

人工智能文本检测的基本工作流程很容易描述。首先，从一段你想确定来源的文本入手。然后应用一个检测工具，通常是一个人工智能系统，它分析文本并生成一个分数，通常以概率的形式表示，指示该文本被人工智能生成的可能性。根据这个分数来指导后续决策，比如是否对违反规则的行为进行处罚。

然而，这个简单的描述隐藏了许多复杂性。它忽略了一些需要明确说明的背景假设。你知道哪些 AI 工具可能被用来生成这段文本吗？你对这些工具的使用权限是什么？你能自己运行它们吗？还是只能查看它们的内部工作原理？你有多少文本？你是拥有一篇单独的文本，还是一系列随着时间积累的作品？AI 检测工具能告诉你什么，不能告诉你什么，关键取决于这些问题的答案。

还有一个特别重要的细节：生成文本的 AI 系统是否故意嵌入了标记，以便后续检测更为简单？

这些标记被称为水印。带水印的文本看起来像普通文本，但这些水印是以微妙的方式嵌入的，不容易被随意检查发现。拥有正确密钥的人可以检查这些水印是否存在，并验证文本是否来自带水印的 AI 生成源。然而，这种方法依赖于 AI 供应商的合作，并不总是可用。

AI 文本检测工具的工作原理

一种显而易见的方法是使用 AI 本身来检测 AI 编写的文本。这个想法其实很简单。首先收集一个大型语料库，也就是标记为人类写作或 AI 生成的文本示例，然后训练一个模型来区分这两者。实际上，AI 文本检测被视为一个标准的分类问题，精神上类似于垃圾邮件过滤。一旦训练完成，检测器会分析新文本，并预测它更接近于 AI 生成的示例，还是之前见过的人类写作。

学习型检测器的方式即使在你对可能生成文本的 AI 工具知之甚少的情况下也能有效工作。主要要求是训练语料库必须足够多样化，以包括来自广泛 AI 系统的输出。

但是，如果你确实可以访问你所关心的 AI 工具，则可以采用不同的方法。这种第二种策略不需要收集大量标记数据集或单独训练检测器。相反，它会在文本中寻找统计信号，这些信号通常与特定 AI 模型生成语言的方式有关，以评估文本是否可能是 AI 生成的。例如，一些方法检查 AI 模型对一段文本分配的概率。如果模型对确切的单词序列分配了异常高的概率，这可能是文本实际上是由该模型生成的信号。

最后，在由嵌入水印的 AI 系统生成的文本的情况下，问题从检测转向验证。使用 AI 供应商提供的秘密密钥，验证工具可以评估文本是否与由水印系统生成的一致。这种方法依赖于文本本身无法提供的信息，而不是仅仅依赖于从文本中得出的推论。

检测工具的局限性

每种工具都有自己的局限性，这使得很难宣布明确的赢家。例如，基于学习的检测器对新文本与其训练数据的相似程度非常敏感。当文本与训练语料库有实质性差异时，它们的准确性会下降，而训练语料库可能会因为新 AI 模型的发布而迅速过时。不断策划新数据和重新训练检测器是昂贵的，检测器不可避免地会落后于它们要识别的系统。

统计测试面临一系列不同的限制。许多测试依赖于关于特定 AI 模型如何生成文本的假设，或依赖于对这些模型概率分布的访问。当模型是专有的、频繁更新或根本未知时，这些假设就会失去效力。因此，在受控环境中表现良好的方法在现实世界中可能变得不可靠或不适用。

水印技术将问题从检测转移到验证，这也带来了自身的依赖性。它依赖于 AI 供应商的合作，而且仅适用于启用了水印的文本。

更广泛来说，AI 文本检测是一场升级的军备竞赛的一部分。检测工具必须是公开的才能有效，但这种透明性也让规避变得可能。随着 AI 文本生成器能力的增强和规避技术的日益复杂，检测器不太可能获得持久的优势。