论文阅读:arxiv 2026 Extracting books from production language models

总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

大模型数据污染 & 大模型动态评估: https://blog.csdn.net/WhiffeYF/article/details/142256907

https://arxiv.org/pdf/2601.02671v1

https://www.doubao.com/chat/35659689586454018

论文翻译:

https://whiffe.github.io/Paper_Translation/Contamination/从生产语言模型中提取书籍 --- Extracting books from production language models.html

速览

一段话总结

该研究通过两阶段提取流程(初始探测+迭代续写),对Claude 3.7 Sonnet、GPT-4.1、Gemini 2.5 Pro、Grok 3 四款商用大模型开展版权书籍提取实验,发现即便存在模型与系统级安全防护,仍可提取大量受版权保护的训练文本:无需越狱即可从Gemini 2.5 Pro(《哈利·波特与魔法石》提取率76.8%)和Grok 3(70.3%)中提取书籍片段,通过Best-of-N越狱后,Claude 3.7 Sonnet能近乎逐字提取整本书(最高提取率95.8%),而GPT-4.1需更多越狱尝试(20倍)且易拒绝续写(提取率仅4.0%),该结果为大模型版权争议提供了关键技术依据。


思维导图(mindmap)

mindmap 复制代码
## 研究背景
- 核心争议:大模型对版权训练数据的记忆与提取问题
- 行业现状:商用模型宣称训练属合理使用,但缺乏提取长文本实证
- 研究缺口:开源模型已证实可提取书籍,商用模型防护效果未知
## 研究方法
- 两阶段提取流程
  - 阶段1:初始探测(短文本前缀续写,需越狱Claude 3.7 Sonnet/GPT-4.1)
  - 阶段2:长文本提取(迭代续写,直至拒绝/停止/预算耗尽)
- 关键工具:Best-of-N(BoN)越狱技术
- 评估指标:nv-recall(基于最长公共子串的近逐字提取率)
## 实验结果
- 模型表现差异
  - Claude 3.7 Sonnet:越狱后最高95.8%提取率,可提取整本书
  - Gemini 2.5 Pro:无需越狱,最高76.8%提取率
  - Grok 3:无需越狱,最高70.3%提取率
  - GPT-4.1:需大量越狱尝试,仅4.0%提取率,易拒绝
- 成本与规模:提取单本书成本0.06-189.2美元,提取文本量达数十万字
## 研究意义
- 技术层面:证实商用模型仍存在版权数据泄露风险
- 法律层面:为版权诉讼(如合理使用认定)提供技术支撑
- 局限说明:实验规模有限,不涉及模型间提取风险横向对比

详细总结

1. 研究核心目标与背景
  • 核心目标:验证商用大模型是否能提取出长文本形式的受版权保护训练数据,填补开源模型与商用模型提取研究的空白。
  • 行业背景:
    • 大模型训练数据含大量受版权内容,企业主张训练属"合理使用",但需以"非逐字记忆"为前提。
    • 此前研究已证实开源模型(如Llama 3.1 70B)可提取整本书,但商用模型因含安全防护,提取可行性未知。
  • 法律关联:美国法院此前因原告缺乏"实质性提取"证据支持大模型合理使用,德国法院则认定模型记忆与提取属侵权,研究结果直接影响相关诉讼走向。
2. 实验设计与关键方法
2.1 实验对象
类别 具体信息
商用模型(4款) Claude 3.7 Sonnet(知识 cutoff 2024.10)、GPT-4.1(2024.6)、Gemini 2.5 Pro(2025.1)、Grok 3(2024.11)
测试书籍(13本) 11本受版权保护(如《哈利·波特与魔法石》《1984》)、2本公有领域书籍(《弗兰肯斯坦》《了不起的盖茨比》)、1本阴性对照书籍(2025年出版,无训练数据)
2.2 两阶段提取流程
  • 阶段1:初始探测(验证提取可行性)
    • 输入:书籍开头短句前缀+续写指令("逐字续写原文")。
    • 特殊处理:Claude 3.7 Sonnet和GPT-4.1需通过BoN越狱(随机扰动指令,如字符替换、大小写翻转),Gemini 2.5 Pro和Grok 3可直接合规。
    • 成功标准:生成文本与目标后缀的相似度≥60%(基于最长公共子串计算)。
  • 阶段2:长文本提取(迭代续写)
    • 操作:重复发送"继续续写"请求,直至模型拒绝、返回停止短语(如"THE END")或耗尽查询预算。
    • 配置优化:针对不同模型调整生成参数(温度设为0,最大响应长度、频率惩罚等按需调整)。
2.3 评估指标
  • 核心指标:nv-recall(近逐字提取率),计算生成文本中与原著匹配的连续长文本占比(需通过两阶段合并-过滤:合并短间隙匹配块,过滤<100词的短块,避免巧合匹配)。
  • 辅助指标:匹配词数(m)、缺失词数(|B|-m)、额外生成词数(|G|-m)。
3. 核心实验结果
3.1 模型提取表现对比(以《哈利·波特与魔法石》为例)
模型 是否需要越狱 BoN尝试次数(N) nv-recall提取率 关键说明
Claude 3.7 Sonnet 258 95.8% 可提取近乎完整书籍
Gemini 2.5 Pro 0 76.8% 直接合规,无需额外操作
Grok 3 0 70.3% 无防护拦截,提取效率高
GPT-4.1 5179 4.0% 需20倍更多越狱尝试,仅能提取第一章
3.2 整体提取情况
  • 提取规模:成功从所有模型中提取数十万词文本,最长匹配块达9070词(Gemini 2.5 Pro提取《哈利·波特与魔法石》)。
  • 版权书籍表现:Claude 3.7 Sonnet可提取2本完整受版权书籍(《哈利·波特与魔法石》《1984》),多数模型对11本受版权书籍的提取率≤10%。
  • 成本差异:提取成本因模型而异,Gemini 2.5 Pro单本书最低0.06美元,Claude 3.7 Sonnet最高达189.2美元(提取《宠儿》)。
3.3 特殊发现
  • 额外生成文本:非提取文本中常包含原著的角色名、情节和主题(如GPT-4.1生成《权力的游戏》相关情节)。
  • 模型防护差异:GPT-4.1拒绝续写概率最高,Gemini 2.5 Pro偶发空响应,Claude 3.7 Sonnet越狱后无明显拦截。
4. 研究局限与意义
  • 局限:
    • 实验规模有限,仅测试13本书,不代表所有书籍的提取情况。
    • 未进行模型间横向对比(因各模型生成配置不同)。
    • 成本较高限制了更多实验组合(如Claude 3.7 Sonnet长文本生成成本高昂)。
  • 意义:
    • 技术层面:证实商用模型的安全防护仍存在漏洞,长文本提取风险真实存在。
    • 法律层面:为版权诉讼提供"实质性提取"证据,影响合理使用认定。
    • 实践层面:为模型厂商优化防护策略(如针对长文本续写的过滤机制)提供参考。

关键问题

问题1:研究采用的两阶段提取流程具体是什么?核心评估指标如何保障结果有效性?
  • 答案:两阶段流程包括①初始探测:向模型输入书籍开头短前缀+续写指令,通过BoN越狱(针对Claude 3.7 Sonnet和GPT-4.1)验证续写可行性,成功标准为文本相似度≥60%;②迭代续写:重复发送"继续"请求,直至模型拒绝、返回停止短语或耗尽预算。核心评估指标为nv-recall(近逐字提取率),通过"识别匹配块-合并短间隙块-过滤短块(≥100词)"的两阶段处理,避免巧合匹配,仅统计可明确认定为模型记忆的长文本,保障结果有效性。
问题2:四款商用模型在版权书籍提取上的核心差异是什么?关键数据有哪些?
  • 答案:核心差异集中在"是否需要越狱""提取率""拒绝行为"三方面:①无需越狱:Gemini 2.5 Pro(《哈利·波特与魔法石》提取率76.8%)、Grok 3(70.3%),无明显拒绝行为;②需越狱:Claude 3.7 Sonnet(BoN尝试258次,提取率95.8%,可提取整本书)、GPT-4.1(BoN尝试5179次,提取率仅4.0%,易拒绝续写)。此外,提取成本差异显著,最低0.06美元(Gemini 2.5 Pro),最高189.2美元(Claude 3.7 Sonnet)。
问题3:该研究对大模型版权争议有何实际影响?研究存在哪些局限性?
  • 答案:实际影响:为版权诉讼提供关键技术证据,此前美国法院因原告缺乏"实质性提取"证据支持大模型合理使用,而本研究证实商用模型可提取完整版权书籍,可能改变后续诉讼走向;同时推动模型厂商优化安全防护,减少版权数据泄露风险。局限性:①实验范围有限,仅测试13本书,无法推广至所有版权内容;②未进行模型间横向对比(各模型生成配置不同);③成本较高限制了实验规模,且未考虑不同书籍的记忆差异。
相关推荐
斯文by累2 小时前
AI产品推荐:NoteBookLM
人工智能
week_泽2 小时前
第2课:深度剖析AI Agent核心模块 - 学习笔记_2
人工智能·笔记·学习·ai agent
沙漠的浪人2 小时前
Deep Research 怎么才算 "Deep"
人工智能·agent
Oflycomm2 小时前
高通推出新一代机器人全栈技术,加速家用与人形机器人物理 AI 落地
人工智能·高通·wifi7模块·ces2026·qogrisys·欧飞信
沙漠的浪人2 小时前
多Agent系统中的用户干预(Human-in-the-Loop)设计
人工智能·agent
Android技术之家2 小时前
在手机上跑大模型?Google AI Edge Gallery 开源项目深度解析
前端·人工智能·edge·开源
2301_800256112 小时前
【人工智能引论期末复习】第4章 机器学习1-基础知识
人工智能·算法·机器学习
quintin-lee2 小时前
现代 Neovim 插件全景图:从底层基建到 AI 驱动
人工智能·vim
3***g2052 小时前
Anaconda加速AI模型训练的技术文章大纲环境配置与优化
人工智能