AI写作检测新突破：Raidar方法大幅提升F1得分，ICLR 2024亮相

引言

这篇文章介绍了一种名为Raidar的简单有效的方法，通过提示LLMs重写文本并计算输出的编辑距离来检测机器生成的文本。本文的关键假设是，由自回归生成模型产生的文本保留了一致的结构，这使得另一个类似的模型也倾向于将其视为高质量，并因此进行较少的修改。本文的方法Raidar展示了如何利用这一洞察来创建机器生成文本的检测器。Raidar操作符号化的单词输出，无需深度神经网络特征，这提高了其鲁棒性、泛化能力和适应性。通过关注原始文本和重写文本之间的字符编辑距离，Raidar在语义上是中立的，减少了不相关和虚假的相关性。这种特征不可知的设计也允许与只提供单词输出的最新LLM模型无缝集成。重要的是，本文检测器不需要原始生成模型，允许模型A检测模型B的输出。

论文标题: RAIDAR: GENERATIVE AI DETECTION VIA REWRITING

机构: Columbia University & Rutgers University

论文链接 : arxiv.org/pdf/2401.12...

项目地址 : github.com/cvlab-colum...

Raidar方法概述：利用重写来检测机器生成文本

Raidar方法是一种通过提示大型语言模型（LLMs）对文本进行重写，并计算输出的编辑距离来检测AI生成内容的新颖技术。这种方法的核心假设是，由自回归生成模型产生的文本保持一致的结构，因此，当另一个类似模型进行重写时，它很可能也会认为这是高质量的文本，从而导致较少的修改。实验表明，与人类编写的文本相比，机器生成的文本在重写过程中被修改的频率较低。Raidar利用这一特点，通过关注原始文本和重写文本之间的字符编辑距离，来检测机器生成的文本。这种方法不依赖于深度神经网络特征，而是完全操作LLMs的符号词输出，增强了其鲁棒性、泛化能力和适应性。此外，Raidar不需要原始生成模型，允许一个模型检测另一个模型的输出。

重写提示设计：如何利用LLM的性质进行准确检测

1. 不变性（Invariance）的测量

不变性是指当对LLM生成的文本使用重写提示时，输出与输入之间的变化很小。为了测量这种不变性，我们设计了一个简单的提示，例如"帮我润色这段话"，目的是让LLM在重写人类文本时进行更多的修改，而在修改LLM生成的文本时保持更多的不变性。通过计算输入和输出之间的编辑距离，我们可以量化LLM对给定输入的偏好程度。

2. 等变性（Equivariance）的测量

等变性是指输入经过变换后，LLM生成的文本在经过逆变换时应与原始输入产生相同的输出。为了实现这一点，我们通过在输入文本中添加特定的提示来引导LLM进行变换，然后再添加逆变换提示以恢复原始状态。例如，我们使用"以相反含义写出这段话"作为变换提示T，然后使用"以相反含义写回"作为逆变换提示T^-1。通过这种方式，我们可以测量LLM对示例的等变性。

3. 输出不确定性（Output Uncertainty）的测量

输出不确定性是基于这样的假设：LLM生成的文本在多次重写请求下会比人类编写的文本更稳定。我们通过多次使用相同的重写提示，并观察输出之间的差异来测量这种不确定性。具体来说，我们计算多次生成结果之间的编辑距离，并将这些距离的方差作为输出不确定性的度量。这种度量仅使用输出，而不涉及原始输入，从而减少了对文本表面语义的依赖。

实验设计：数据集和基线方法

1. 数据集介绍

在本研究使用了多个数据集来评估Raidar。这些数据集涵盖了不同的领域，包括新闻、创意写作、学生论文、代码、Yelp评论和arXiv论文。每个数据集都包含了人类编写的文本和由大型语言模型（LLM）生成的文本。例如，创意写作数据集基于Reddit上的WritingPrompts子版块，而代码数据集则使用HumanEval数据集作为人类编写的代码，并要求GPT-3.5-turbo生成相应的代码。Yelp评论数据集包含了2000条人类评论，并使用GPT-3.5-turbo生成了长度相近的评论。arXiv数据集则包含了标题和摘要，我们使用标题和原始摘要的前15个单词来生成新的摘要。

2. 基线方法与比较

基线方法包括GPT Zero-shot、DetectGPT和Ghostbuster。GPT Zero-shot通过直接询问GPT模型输入是否由GPT编写来进行检测。DetectGPT是一种阈值方法，通过输入的曲率来进行检测。Ghostbuster则使用大型语言模型的概率输出作为特征，并进行特征选择来训练最优分类器。本文的方法Raidar与这些基线方法相比，在多个数据集上取得了显著的改进，F1得分提高了多达29分。

主要实验结果：Raidar方法的有效性

1. 检测性能与改进

Raidar方法在多个数据集上显著提高了AI内容检测模型的F1检测分数，包括学术和商业模型。在不同的领域中，包括新闻、创意写作、学生论文、代码、Yelp评论和arXiv论文，本文方法都取得了显著的性能提升，最高可达29分。Raidar方法的一个关键优势是它仅依赖于LLM的符号词输出，不需要深度神经网络特征，这增强了其对新内容的鲁棒性。

2. 不同LLM生成文本的检测鲁棒性

实验结果表明，Raidar方法在检测不同LLM生成的文本时具有良好的鲁棒性。即使在模型未经训练的情况下，本文方法仍能有效地检测出由Ada、Text-Davinci-002、Claude和GPT-3.5等不同语言模型生成的文本。

3. 不同重写模型的检测效果

本文还研究了使用不同大小的重写模型对检测性能的影响。实验结果表明，使用较大的重写语言模型可以提高检测性能。例如，GPT-3.5-turbo在重写检测中的表现优于Ada和Text-Davinci-002。

4. 不同提示对检测性能的影响

本文的研究还发现，使用不同的重写提示可以显著影响最终的检测性能。没有一个单一的提示在所有数据源上都表现最佳。通过使用单个重写提示，我们的方法可以获得高达90分的检测F1分数。此外，即使在输入长度较短的情况下，本文方法也能够实现高达74分的F1分数。

额外实验分析：Raidar方法的适应性和限制

1. 对非英语母语者文本的检测鲁棒性

Raidar方法在检测非英语母语者的文本时表现出了一定的鲁棒性。在使用Hewlett Foundation的Automated Student Assessment Prize (ASAP)数据集进行实验时，该数据集包含了美国8年级学生的TOEFL考试作文，Raidar能够有效地检测出由非母语者撰写的文本。尽管与在学术论文数据集上的表现相比有轻微的性能下降（不到1个百分点），但Raidar的检测性能仍然保持在较高水平，这表明其对于不同语言水平的文本具有一定的适应性。

2. 结合多个LLM重写提高检测性能

通过结合多个大型语言模型（LLM）进行文本重写，Raidar方法能够提高检测性能。实验结果表明，结合GPT-3.5与其他LLM（如Ada和Davinci）进行重写，可以在某些数据集上（如arXiv数据集）提高检测性能。然而，在其他数据集（如Yelp评论数据集）上，这种结合并没有带来性能提升。这可能表明不同数据集的特性对于检测方法的适应性有着不同的影响。

3. 增加重写文本编辑距离作为特征

在Raidar方法中，增加重写文本之间的编辑距离作为特征可以提高检测性能。通过计算不同LLM重写文本之间的编辑距离，并将其作为额外的特征，Raidar在检测机器生成文本时表现出更好的性能。这一发现强调了编辑距离在衡量文本修改程度方面的重要性。

4. 输入长度对检测性能的影响

输入文本的长度对Raidar检测性能有着显著的影响。在Yelp评论数据集上的实验显示，较长的输入文本通常能够获得更高的检测性能。然而，Raidar方法也能够在短文本输入（如仅有10个单词的输入）上达到74分的检测F1分数，这表明Raidar在处理不同长度的文本时具有一定的灵活性和有效性。

讨论：Raidar方法的优势与未来方向

Raidar方法通过利用LLM重写文本并计算编辑距离来检测机器生成的文本，这一方法在多个数据集和不同领域的文本上都显示出了较高的检测性能。Raidar的优势在于其简单性和对LLM输出的最小依赖，使其能够与黑盒LLM兼容，并在新内容上展现出鲁棒性。

未来的研究方向可能包括进一步提高Raidar方法对于非母语文本的检测能力，以及探索更多LLM组合重写的可能性，以提高检测性能。此外，考虑到输入长度对检测性能的影响，未来的工作可以探索优化Raidar以更好地处理不同长度的文本输入。最后，随着LLM技术的不断进步，Raidar方法的适应性和泛化能力将是持续研究的重点。

总结：Raidar在机器生成文本检测中的潜力

1. Raidar方法的介绍与优势

Raidar是一种通过重写机器生成的文本来检测其来源的方法。这种方法的核心假设是，由自回归生成模型产生的文本具有一致的结构，因此在重写时会被另一个类似模型视为高质量文本，从而导致较少的修改。Raidar利用这一特性，通过计算原始文本与重写文本之间的字符编辑距离，来判断文本是否由机器生成。

Raidar的优势在于其简单性和有效性。它仅依赖于语言模型输出的符号化词汇，不需要深度神经网络特征，这增强了其鲁棒性、泛化能力和适应性。此外，Raidar的特征不依赖于文本的语义，减少了不相关和虚假相关性的干扰。这种设计也允许Raidar与仅通过API提供词汇输出的最新语言模型无缝集成。

2. Raidar的实验表现

在多个数据集和领域的实验中，Raidar在检测机器生成文本方面显著提高了现有AI内容检测模型的F1分数，包括新闻、创意写作、学生论文、代码、Yelp评论和arXiv论文等，提升幅度高达29分。Raidar在检测由不同语言模型生成的文本时表现出色，即使是在模型未经训练的文本上也能保持鲁棒性。此外，即使在文本生成过程中考虑到了检测机制并使用定制提示来规避检测，Raidar的检测能力仍然稳健。

3. Raidar的适应性和泛化能力

Raidar在不同语言模型生成的文本上的检测能力表明了其适应性和泛化能力。无论是在分布内还是分布外实验中，Raidar都能有效地检测机器生成的文本。它能够检测到由Ada、Text-Davinci-002、Claude和GPT-3.5等不同模型生成的文本，即使检测模型未曾见过这些模型生成的文本。此外，Raidar在使用不同大小的语言模型进行重写时也显示出良好的性能。

4. Raidar的未来潜力

Raidar的研究结果表明，通过利用大型语言模型的固有结构，可以有效检测由这些模型生成的文本。这为检测机器生成文本开辟了新的方向。随着大型语言模型在文本生成方面的能力不断提升，Raidar等检测方法的发展将对于缓解这些模型可能带来的风险至关重要。