盘点：大模型的知识产权保卫战

共同探讨有深度的生成式AI技术前沿洞见、技术迭代、案例解析、方法和实践，请关注"神州问学"VX。

©作者| Zhongmei

来源| 神州问学

摘要

在人工智能快速发展的今天，AI的技术发展与知识产权归属的边界正变得日益模糊。通过大量公开的数据进行训练，让模型学习从而有生成产物的能力，是一种构建人工智能（生成式AI）的方式。这些数据包括文字、画作和代码，模型正是从海量的数据中获得的生成同样产物的能力。随着生成式AI的快速崛起，在重塑行业、赋能人类工作生活的同时，也引发了版权制度层面的一系列新的挑战。

"AI训练"类技术的首次法律诉讼

"微软和 OpenAI 的野心远远超出了 GitHub 和 Copilot，他们想在任何地方免费训练任何数据，无需同意，永远。"

2022年11月3日和10日，程序员兼律师Matthew Butterick等人分别向美国加州北区联法院递交了一份集体诉讼起诉书，指控OpenAI和微软使用他们贡献的代码训练AI的编程工具Copilot及codex，要求法院批准90 亿美元（约 649 亿人民币） 的法定损害赔偿金。根据集体诉讼文件，每当 Copilot 提供非法输出，它就违反第 1202 条三次，即没有（1）注明出处，（2）版权通知，（3）许可条款的许可材料。因为两工具使用了GitHub上的开源软件用于训练并用于输出，但并未按照要求进行致谢，版权声明和附上许可证，甚至标识错误，违反上千万软件开发者的许可协议，原告进一步指称被告将其敏感个人数据一并纳入Copilot中向他人提供，构成违反DMCA、违反开源许可证、欺诈、违反GitHub服务条款隐私政策等。

时年52 岁的Butterick还创建了一个网站（链接：www.githubcopilotinvestigation.com)，跟进诉讼情况，也呼吁更多人的支持，在网站文章中他强调："**我们反对的绝不是%25EF%25BC%258C%25E8%25B7%259F%25E8%25BF%259B%25E8%25AF%2589%25E8%25AE%25BC%25E6%2583%2585%25E5%2586%25B5%25EF%25BC%258C%25E4%25B9%259F%25E5%2591%25BC%25E5%2590%2581%25E6%259B%25B4%25E5%25A4%259A%25E4%25BA%25BA%25E7%259A%2584%25E6%2594%25AF%25E6%258C%2581%25EF%25BC%258C%25E5%259C%25A8%25E7%25BD%2591%25E7%25AB%2599%25E6%2596%2587%25E7%25AB%25A0%25E4%25B8%25AD%25E4%25BB%2596%25E5%25BC%25BA%25E8%25B0%2583%25EF%25BC%259A%25E2%2580%259C**%25E6%2588%2591%25E4%25BB%25AC%25E5%258F%258D%25E5%25AF%25B9%25E7%259A%2584%25E7%25BB%259D%25E4%25B8%258D%25E6%2598%25AF "https://www.githubcopilotinvestigation.com)%EF%BC%8C%E8%B7%9F%E8%BF%9B%E8%AF%89%E8%AE%BC%E6%83%85%E5%86%B5%EF%BC%8C%E4%B9%9F%E5%91%BC%E5%90%81%E6%9B%B4%E5%A4%9A%E4%BA%BA%E7%9A%84%E6%94%AF%E6%8C%81%EF%BC%8C%E5%9C%A8%E7%BD%91%E7%AB%99%E6%96%87%E7%AB%A0%E4%B8%AD%E4%BB%96%E5%BC%BA%E8%B0%83%EF%BC%9A%E2%80%9C**%E6%88%91%E4%BB%AC%E5%8F%8D%E5%AF%B9%E7%9A%84%E7%BB%9D%E4%B8%8D%E6%98%AF") AI 辅助编程工具，而是微软在 Copilot 当中的种种具体行径**。微软完全可以把 Copilot 做得更开发者友好------比如邀请大家自愿参加，或者由编程人员有偿对训练语料库做出贡献。但截至目前，口口声声自称热爱开源的微软根本没做过这方面的尝试。另外，如果大家觉得 Copilot 效果挺好，那主要也是因为底层开源训练数据的质量过硬。Copilot 其实是在从开源项目那边吞噬能量，而一旦开源活力枯竭，Copilot 也将失去发展的依凭。 "

绘画AI工具频频被指控抄袭

"我认为这与经济损失无关，也与阻止这项技术的传播无关。重要的是创造一个尊重知识产权的环境。"

2023年1月17日，全球知名图片提供商，华盖创意（Getty Images）起诉AI绘画工具Stable Diffusion的开发者Stability AI，称其侵犯了版权。华盖创意1995年成立于美国西雅图，首创并引领了独特的在线授权模式------在线提供数字媒体管理工具以及创意类图片、编辑类图片、影视素材和音乐产品，目前服务全球120多个国家和地区，全球设有65个分支机构。华盖创意称Stability AI在未经许可或考虑的情况下，从网站上窃取了数百万张图片 训练自己的模型，使用他人的知识产权，为自己的经济利益服务，这不是公平交易，所以公司在采取行动保护公司和艺术家们的知识产权。"

除了图片平台外，个人艺术家也对人工智能有怨言。同月16日，Sarah Andersen、Kelly McKernan和Karla Ortiz三名艺术家对Stability AI（英），另一个AI绘画工具Midjourney(美)，以及艺术家作品集平台DeviantArt(美)提出诉讼，称这些组织通过在"未经原作者同意的情况下"从网络上获取的50亿张图像 来训练其人工智能，侵犯了"数百万艺术家"的权利。有趣的是这个案件的负责律师正是诉讼OpenAI和微软的 Matthew Butterick。他此案描述为 "为每一个人创造公平的环境和市场的第一步" 。但是一审法官驳回了大部分上述诉求，但颁布了法庭许可（leave of court），允许原告在调整、补充起诉事由和证据材料后另行起诉。

事实上，Midjourney 对这类问题表现得不屑一顾。公司 CEO 曾在接受《福布斯》杂志采访时，表达了对版权所有者权利的漠视。"没有经过授权，我们也没办法一一排查上亿张训练图像分别来自哪里。如果再向其中添加关于版权所有者等内容的元数据，那也太麻烦了。但这不是什么大事，毕竟网络上也没有相应的注册表，我们做不到在互联网上找一张图片、然后轻松跟踪它到底归谁所有，再采取措施来验证身份。既然原始训练素材未获许可，那即使在我们这帮非法律出身的外行来看，这都很可能激起各制片方、电子游戏发行商和演员的反抗。"

看不见的幽灵与看得见的恐慌

"一个幽灵，一个AIGC的幽灵，在音乐行业游荡。"

一位名为Ghostwriter977的网友用Drake和The Weeknd的声音对AI模型进行了训练，同时模仿两人的音乐风格，最终生成并发布歌曲《Heart on My Sleeve》。该歌曲在不到两天的时间里，实现了病毒式的传播：这首歌在Spotify上的播放量已超过60万次 ，在TikTok上点击量超1500 万次，完整版在YouTube平台上播放超27.5万次 。值得注意的是，即便发布者并未在演唱信息提及Drake和The Weeknd，但《Heart on My Sleeve》依然火了。对很多人来说，这是AI音乐的第一首出圈之作，这是Ghostwriter用生成式AI进行创作的开始，也是环球音乐加速干预AIGC问题的标志。《Heart on My Sleeve》的蹿红很快吸引到了环球音乐的注意。作为Drake和The Weeknd的幕后唱片公司，环球音乐集团通讯高级副总裁James Murtagh-Hopkins对外发表言辞激烈的声明称："使用我们旗下的艺术家对AI生成内容进行训练，这既违反了我们的协议，也违反了版权法。" 在环球音乐的投诉下，《Heart on My Sleeve》率先从Spotify和Apple Music下架。紧随其后，YouTube、Amazon Music、SoundCloud、Tidal、Deezer和TikTok也撤下了该歌曲。环球音乐同时指出，在流媒体平台上AI生成内容的可用性引发了一个问题，即音乐行业生态中的所有利益相关者到底希望站在历史的哪一边："是站在艺术家、粉丝和人类创造性表达的一边，还是站在深度伪造、欺诈和剥夺艺术应得补偿的另一边。 "很显然，Ghostwriter也是最后一根稻草，在忍耐的极限后，业内巨头开启了对AI音乐恐慌的抵抗，环球音乐集团4月发函要求Spotify等音乐流媒体平台切断AI公司的访问权限，以阻止其版权歌曲被用于训练模型和生成音乐。

6年成果，被爬取200+万次，索赔1元

"数据是有价值的，但我们心血更是无价，索赔 1 元是因为公平公正并不能用金钱衡量，我们希望通过诉讼告诉社会这种行为是错误的。人工智能行业的发展，靠的是共同创造，而非觊觎和剽窃他人的成果。"

2023年6月13日下午，笔神作文通过自己的微信公众号、微博和第三方媒体发布消息称，遭到有多年合作关系的"学而思"背刺，在4月的一个周末，自己的数据被学而思被爬虫爬取了超过两百万次 。而后学而思5月就公布进行数学大模型-MathGPT 的研发使用，"未免也太过于'巧合'了"。笔神作文要求学而思公开致歉、删除非法获取的数据并中止应用、求偿1元的诉求。

笔神作文表示自己在成立的6年时间里，每个月都会收到30万篇作文投稿，每个月人工批改超3万篇，总共累积了超过500万篇作文素材，这些数字资产也是员工们的心血。但是随后8月4日笔神作文又发声明称经与学而思深入调查并坦诚沟通后，对双方有争议条款已达成一致，双方已消除误会，并将继续深化合作，共同推进AI技术在教育领域的探索。

著名的ChatGPT，屡屡吃官司

"我们必须阻止这种盗窃行为。为了保护文学，作家必须限制AI能否与如何使用他们的作品。"

早在2023年2月15日，《华尔街日报》记者弗朗西斯科·马可尼（Francesco Marconi）公开指控Open AI公司未经授权大量使用路透社、纽约时报、卫报、BBC等国外主流媒体的文章训练ChatGPT模型，但从未支付任何费用。

2023年6月28日，第一起具有代表性的ChatGPT版权侵权之诉，终于出现在了公众视野。两名畅销书作家Paul Tremblay和Mona Awad美国加州北区法院，向OpenAI提起集体诉讼，指控后者未经授权也未声明，利用自身享有版权的图书训练ChatGPT，谋取商业利益。同月16名匿名人士 向美国加利福尼亚旧金山联邦法院提起诉讼，指控ChatGPT在没有充分通知用户，或获得同意的情况下，收集、存储、跟踪、共享和披露了他们的个人信息。他们称受害者据称可能多达数百万人 ，据此要求微软和OpenAI赔偿30亿美元。

2023年7月10日，美国喜剧演员和作家萨拉·希尔弗曼（Sarah Silverman）以及另外两名作家Richard Kadrey、Christopher Golden在加州北区法院起诉OpenAI，指控ChatGPT 所用的训练数据侵犯版权。同年9月19日，美国作家协会以及包括《权力的游戏》原著作者乔治·R·R·马丁（George R.R. Martin）在内的17位 美国著名作家向美国纽约联邦法院提起诉讼，指控OpenAI"大规模、系统性地盗窃"，称OpenAI在未经授权的情况下使用原告作家的版权作品训练其大语言模型，公然侵犯了作家们登记在册的版权。12月，含多名普利策奖得主在内的11位美国作家，在曼哈顿联邦法院起诉OpenAI和微软滥用自己作品训练大模型，指出这样的行为无疑是在"刮取"作家们的作品和其他受版权保护的材料。他们希望获得经济赔偿，并要求这些公司停止侵犯作家们的版权。

2023 年 12 月 27 日，著名的《纽约时报》申请出战。《New York Times》向曼哈顿联邦法院提起诉讼，指控 OpenAI 和微软未经许可使用该报数百万篇文章训练机器人。《纽约时报》要求获得损害赔偿，还要求永久禁止被告从事所述的非法、不公平和侵权行为，删除包含《纽约时报》作品原理的训练集等。虽然《纽约时报》并未提出具体的赔偿金额要求，但其指出被告应为"非法复制和使用《纽约时报》独特且有价值的作品"和与之相关的"价值数十亿美元的法定和实际损失"负责。作为回应，当地时间 1 月 4 日，OpenAI 知识产权和内容首席 Tom Rubin 在采访中表示，公司近期与数十家出版商展开了有关许可协议的谈判："我们正处于多场谈判中，正在与多家出版商进行讨论。他们十分活跃积极，这些谈判进展良好。" 据两名近期与 OpenAI 进行谈判的媒体公司高管透露，为了获得将新闻文章用于训练其大语言模型的许可，OpenAI 愿意向部分媒体公司缴纳每年 100 万至 500 万美元的费用。 虽然对于一些出版商来说，这是一个很小的数字，但如果媒体公司数量足够多，对 OpenAI 而言必然是一次"大出血"。

Meta承认使用盗版书籍训练大模型，但否认侵权

2023年7月10日，Sarah等三人起诉OpenAI的同时也起诉了Facebook母公司Meta,指控其侵犯版权，使用包含大量盗版书籍的Books3数据集训练Llama系大模型后。公开资料显示，Books3是一个包含19.5万本图书、总容量达37GB的文本数据集，由AI研究者Shawn Presser于2020年创建，旨在为改进机器学习算法提供更好的数据源，但其中包含大量从盗版网站Bibliotik爬取的受版权保护作品。对此，Meta方面承认其使用Books3数据集的部分内容来训练Llama 1和Llama 2，但否认了侵权行为。对此Meta方面方表示，其使用Books3数据集训练大模型属于合理使用范畴，无需获得许可、署名或支付补偿。同时Meta方面还对该诉讼作为集体诉讼的合法性提出异议，并拒绝向提起诉讼的作家或其他参与Books3争议的人士提供任何形式的经济补偿。

大厂互相薅羊毛的传说

2023年12月16日，北京时间凌晨外媒The Verge报道，在生成式AI的疯狂竞赛中，字节跳动一直在秘密利用OpenAI的技术"走捷径"，直指字节跳动在中国使用GPT生成的数据来训练自己的大模型，代号为种子计划（Project Seed），违反了微软和OpenAI的开发者许可。不久后，OpenAI发言人Niko Felix发表声明，确认字节跳动的账户已被暂停并将做进一步调查。没隔几天，谷歌Gemini也出丑闻，在正常对话的情况下承认自己是用文心一言训练中文语料的。网友实测发现，不需要前置对话，不是角色扮演，Gemini直接就会承认自己是文心一言。Gemini Pro会说自己是百度的文心大模型。还说自己的创始人是李彦宏，然后盛赞他是一位「有才华和远见的企业家」。

国外大模型用中国模型产生的中文语料训练，这听起来就是个段子，结果段子竟然成现实了，简直魔幻。但是很快，当界面新闻记者也对Gemini-Pro做类似的身份测试时，发现其已进行了模型优化，不再承认自己与百度之间的"瓜葛"。

结语

"当我们要求 AI 生成"水獭跃出水面的漂亮照片"时，可能没意识到这背后是 Mike Finklestein 在雨中蹲守三个星期才拍下的真实图像"。 随着ChatGPT等生成式AI"一夜成名"，人工智能迎来"狂飙"时刻，AI生成内容（AIGC）领域快速发展，重新审视和适应法律框架以保护创意产权也开始受到频繁的讨论。这类案例的发生提醒也在提醒行业人士，人工智能技术的发展必须建立在合法、透明和公正的基础之上，以保护用户和数据所有方的权益，这不仅展示了技术与法律界限的冲突，也为我们提供了宝贵的机会，去思考和塑造一个更加公平、合理的数字未来。