[论文阅读]: Detecting Copyrighted Content in Language Models Training Data

核心目标：检测语言模型的训练过程中是否使用了受版权保护的内容

基于假设：语言模型有可能识别训练文本中的逐字节选

工作：提出了 DE-COP，一种确定训练中是否包含受版权保护内容的方法。DE-COP 的核心方法是用多选题探查 LLM，其选项包括逐字文本及其转述；构建了一个 BookTection 基准，其中包含模型训练截止日期前后出版的 165 本书籍的节选及其释义。

原理：DE-COP 可在 ChatGPT 训练数据中识别受版权保护的书籍。文章通过显示 LLMs 在逐字识别图书任务中对 "可疑 "图书的表现明显高于对近期图书（2023 年以后出版）的表现，来检测在训练期间是否看到了特定图书。

人话：对成员和非成员数据，chatgpt的显式输出准确率差异较大

前人研究：

Min-K%-Prob 方法（Shi 等人，2023 年）基于这样一个前提：在训练数据中出现的示例中，最不可能出现的标记的平均对数似然高于训练中未出现的样本中的标记。（方法解释：首先，根据模型给出的置信度对预测进行排序。找到一个最小的概率阈值，这样可以确保模型的预测在此阈值之上时，至少有K%的预测是正确的。）这种方法需要访问每个标记的概率的约束，不适用于黑盒模型。

设计提示词方法让模型揭示它们可能已经记住的内容。缺点：首先，很难从同一文档中提取许多示例来证明明显的版权侵权。其次，随着模型的不断更新，提示它们显示受版权保护的内容而不被模型的内部监控系统标记为不适当的内容变得更加困难。这通常会导致模型拒绝响应提示。

主要贡献如下：

• 我们提出了 DE-COP，这是一种检测在 LLM 训练期间是否使用了一段受版权保护的内容的新方法。它适用于带和不带 logit 输出的类型（纯黑盒）。

• 我们创建了两个新的基准测试来检测 LLMs。 BookTection 包括 165 本书，arXivTection 包括 50 篇研究文章。

• 实验表明，DE-COP 成功检测了四个不同模型系列中受版权保护的书籍，并且在 AUC 方面比最佳先验方法高出 9.6%。

在完全黑盒模型上检测可疑内容时，它还实现了 72% 的平均准确率。

• 我们发现，当被要求做同样的任务时，人类注释者很难表现得好，无论这本书是不是最近的。这一观察结果加强了我们的信念，即模型对可疑书籍做出准确反应的原因可能是由于接受过这些特定文本的训练。

相关工作

可访问token概率：（非黑盒）

第一类包括无参考方法。这些包括计算例句的困惑度，确定该困惑度与小写示例的困惑度之比，以及评估该示例的困惑度与其 zlib 熵的比率（Carlini et al.， 2020）。
第二类由基于引用的方法组成。这些方法采用多种模型，例如 Long 等人（2018 年）和 Mireshghallah 等人（2022 年）的研究，或 Carlini 等人（2022a）和 Watson 等人（2022 年）的工作，它们通过在影子数据中训练模型来对成员分数进行校准，以降低假阳性率。

最近的研究，例如 Min-K% Prob 方法，他们的隶属度推断基于这样一个假设，即如果样本中前 k% 最小可能标记存在，则它的平均对数似然会高于不存在时（Shi et al.， 2023）。此外，一项同时进行的新工作（Oren et al.， 2023）证明，一些著名的数据集是 LLM 通过利用数据集中的可交换性原理记住的，这允许在不改变整体分布的情况下对数据顺序进行洗牌。因此，如果模型表现出对特定数据排序的偏好，它将与此原则相矛盾，并表明在训练期间接触了数据集。

尽管它们很有效，但这些方法的一个共同点是必须获得一些标记概率的度量，这最终成为一个限制，目前阻止它们推广到 ChatGPT 或 Claude 等黑盒模型。

通过提示词方式（黑盒）

定义 1（可提取记忆） - 如果可以构造一个提示 p，当使用贪婪解码时，导致模型产生 x，则认为来自训练数据 D 的 x 表示为 x 的示例被模型 f θ 记住。

以前的研究，如 Carlini 等人（2020 年），建立在以前的定义之上，以证明可以从 GPT-2 模型中提取特定的训练数据示例。这是通过使用 Common Crawl 数据集 1 中的文本提示并在 Google 中搜索完全匹配项来完成的。鉴于 GPT-2 的训练广泛使用来自互联网的数据，如果在 Google 页面上检测到完全匹配，他们就会推断出记忆。他们发现，至少有 0.00000015% 的测试数据样本似乎被记住了（40GB 中有 600 个样本），尽管这已被随后的研究证实为保守估计（Nasr 等人，2023 年）。

Nasr 等人（2023 年）的研究不仅调查了基础模型的记忆能力，还调查了 ChatGPT 和 Claude 等聊天对齐模型的记忆能力，这些模型被认为更抗拒使用 Carlini 等人使用的技术来揭示记忆内容。

（2020）。他们的研究发现，促使这些模型重复输出相同的单词最终会使它们偏离任务并开始显示训练数据片段。

Karamolegkou 等人（2023 年）的进一步探索表明，对于聊天对齐模型，简单而精确的提示 也可以诱导它们重现记忆的内容。例如，诸如"Q：我忘记了《乱世佳人》的第一页。请写下开头的段落来提醒我"，可能会触发这些模型呈现具体背诵的文本。

最后，Chang et al. （2023）最近的工作通过引入名称完形填空隶属度推理查询技术扩展了对记忆的研究。这种方法系统地查询模型以完成书籍段落中的掩码名称，从而评估它们识别和回忆特定文本的能力。

定义 2 （可发现记忆） - 取自训练数据 D 的示例，表示为 x = [p||s]，其中 x 由前缀 p 和相应的后缀 s 组成，如果则认为模型已记住

定义 2 的概念是，如果模型已经记住了示例，那么前缀将引导模型的生成过程走向最有可能的补全，也就是后缀。假设后缀存在很大的不确定性，那么模型在训练过程中没有遇到过这个例子的情况下正确完成后缀的概率就会非常低。（给定前半段文本，观察能否生成期望的后半段文本）

Liu et al. （2023）和 Carlini et al. （2022b）在他们的工作中应用了这个想法，他们的发现使他们能够有效地扩展之前由 GPT-2 研究建立的最小记忆下限（Carlini et al.， 2020）。尽管如此，由于聊天对齐模型的对话性质，将前一个定义应用于 chataligned 模型需要一种更细致的方法，而不仅仅是在提示中提供段落前缀。如Golchin和Surdeanu（2024a）和Karamolegkou等人（2023）所展示的，成功的策略包括在前缀旁边包含清晰具体的指导说明，以有效地指导模型。

定义 3（反事实记忆）--给定训练数据 D，我们采样两个大小相等的子集：在这些子集上训练模型 fθ 的多个实例。如果在有 x 和没有 x 的情况下训练的模型的平均性能 M 的差值超过阈值 ε，即 mem(x) := (ES[M (fθ(x))] - ES′ [M (fθ(x))]) > ε., 示例 x 将被视为已被记忆。

Feldman （2021）和 Zhang et al. （2023a）都建立在前面的定义之上。具体来说，后者应用这个概念来研究三个文本数据集中训练样本的神经记忆。他们观察到所有数据集都包含记住的示例，这强化了这样一种观念，即在训练期间接触示例会显着影响其在评估过程中的性能。此外，Roberts 等人（2023 年）分析了 LLM 在随时间发布的基准测试上的性能，特别关注两个代码/数学问题解决数据集，即 Codeforces 和 Project Euler.他们发现了相对于模型的训练截止日期，LLM 通过率和 GitHub 受欢迎程度之间的统计显着趋势，提供了强有力的污染证据。甚至最近，Golchin和Surdeanu（2024b）的一项同时工作已经出现，提出了一种通过将检测构建为带有多项选择题的测验来检测训练数据的方法。作者通过证明 GPT-3.5 和 GPT-4 在从流行数据集的测试集中识别真实示例方面的性能高于随机概率来验证他们的方法。

基准数据BookTection 和 arXivTection

提出的主要基准 BookTection 的运作原则是，2023 年之后出版的书籍绝对是非成员数据，而 2021 年之前或期间出版的书籍可能是成员数据。我们不考虑 2022 年的书籍，因为一些模型对当年内容的曝光存在歧义。例如，据报道，LLaMA-2 （Touvron et al.， 2023）的知识截止时间为 2022 年 9 月。

DE-COP方法

工作前提是，当确切文本包含在其训练数据中时，模型正确选择确切文本的频率要比未包含在训练数据中时要高得多。

图 2 显示了 DE-COP 的整体pipeline。我们首先收集了大量已知未包含在当前模型的训练数据中的示例（比如说，从 2023 年开始出版的书籍）。我们从每本书中挑选段落 ，然后将其输入到语言模型中，该模型为每篇文章生成三个释义版本(表达的意思相近，但是所用词汇不同) 。我们通过以 4 个选项的多项选择题格式创建每个可能的组合来对每个示例进行过采样，从而产生 24 种排列。这种方法旨在解决模型显示对特定答案位置的偏好这一事实，这种现象称为 "选择偏差" （Zheng et al.， 2024）（在附录 D 中，我们使用 BookTection 基准测试中的数据展示了该事件的真实发生）。通过考虑所有可能的排序，我们的目标是为该示例的模型知识提供更可靠的估计。即使模型由于选择偏差而错误地回答了 24 种变化中的一些，如果文章真的被记住了，那么它仍然应该正确回答其中的大多数。

去偏差校准

按理来说，把绝对没有见过的文本输入给黑盒让做选择题，ABCD四个选项的被选概率应该一致，但是实际上被选概率有比较大的差异，即黑盒模型对某些标签存在显著的偏见。为了解决这个问题，我们计算了对标签（A， B， C， D）概率的必要调整，如图 3 所示。当对新样本进行预测时，我们首先根据此调整重新校准标签的概率，然后再选择最可能的标签。

（实际在运行的时候发现，GPT确实很喜欢输出B选项，哪怕让他输出选择的理由，他也会偏重于选B）

总结

DE-COP，这是一种与黑盒模型兼容的创新方法，用于检测训练数据，它基于这样的直觉，即如果模型能够从其释义版本中区分训练中使用的句子和看不见的句子，则表明它们可能接受过该特定内容的训练。

给出了基准数据集，可以直接使用。