盘点:大模型的知识产权保卫战

共同探讨有深度的生成式AI技术前沿洞见、技术迭代、案例解析、方法和实践,请关注"神州问学"VX。

©作者| Zhongmei

来源| 神州问学

摘 要

在人工智能快速发展的今天,AI的技术发展与知识产权归属的边界正变得日益模糊。通过大量公开的数据进行训练,让模型学习从而有生成产物的能力,是一种构建人工智能(生成式AI)的方式。这些数据包括文字、画作和代码,模型正是从海量的数据中获得的生成同样产物的能力。随着生成式AI的快速崛起,在重塑行业、赋能人类工作生活的同时,也引发了版权制度层面的一系列新的挑战。

"AI训练"类技术的首次法律诉讼

"微软和 OpenAI 的野心远远超出了 GitHub 和 Copilot,他们想在任何地方免费训练任何数据,无需同意,永远。"

2022年11月3日和10日,程序员兼律师Matthew Butterick等人分别向美国加州北区联法院递交了一份集体诉讼起诉书,指控OpenAI和微软使用他们贡献的代码训练AI的编程工具Copilot及codex,要求法院批准90 亿美元(约 649 亿人民币) 的法定损害赔偿金。根据集体诉讼文件,每当 Copilot 提供非法输出,它就违反第 1202 条三次,即没有(1)注明出处,(2)版权通知,(3)许可条款的许可材料。因为两工具使用了GitHub上的开源软件用于训练并用于输出,但并未按照要求进行致谢,版权声明和附上许可证,甚至标识错误,违反上千万软件开发者的许可协议,原告进一步指称被告将其敏感个人数据一并纳入Copilot中向他人提供,构成违反DMCA、违反开源许可证、欺诈、违反GitHub服务条款隐私政策等。

时年52 岁的Butterick还创建了一个网站(链接:www.githubcopilotinvestigation.com),跟进诉讼情况,也呼吁更多人的支持,在网站文章中他强调:"**我们反对的绝不是%25EF%25BC%258C%25E8%25B7%259F%25E8%25BF%259B%25E8%25AF%2589%25E8%25AE%25BC%25E6%2583%2585%25E5%2586%25B5%25EF%25BC%258C%25E4%25B9%259F%25E5%2591%25BC%25E5%2590%2581%25E6%259B%25B4%25E5%25A4%259A%25E4%25BA%25BA%25E7%259A%2584%25E6%2594%25AF%25E6%258C%2581%25EF%25BC%258C%25E5%259C%25A8%25E7%25BD%2591%25E7%25AB%2599%25E6%2596%2587%25E7%25AB%25A0%25E4%25B8%25AD%25E4%25BB%2596%25E5%25BC%25BA%25E8%25B0%2583%25EF%25BC%259A%25E2%2580%259C**%25E6%2588%2591%25E4%25BB%25AC%25E5%258F%258D%25E5%25AF%25B9%25E7%259A%2584%25E7%25BB%259D%25E4%25B8%258D%25E6%2598%25AF "https://www.githubcopilotinvestigation.com)%EF%BC%8C%E8%B7%9F%E8%BF%9B%E8%AF%89%E8%AE%BC%E6%83%85%E5%86%B5%EF%BC%8C%E4%B9%9F%E5%91%BC%E5%90%81%E6%9B%B4%E5%A4%9A%E4%BA%BA%E7%9A%84%E6%94%AF%E6%8C%81%EF%BC%8C%E5%9C%A8%E7%BD%91%E7%AB%99%E6%96%87%E7%AB%A0%E4%B8%AD%E4%BB%96%E5%BC%BA%E8%B0%83%EF%BC%9A%E2%80%9C**%E6%88%91%E4%BB%AC%E5%8F%8D%E5%AF%B9%E7%9A%84%E7%BB%9D%E4%B8%8D%E6%98%AF") AI 辅助编程工具,而是微软在 Copilot 当中的种种具体行径**。微软完全可以把 Copilot 做得更开发者友好------比如邀请大家自愿参加,或者由编程人员有偿对训练语料库做出贡献。但截至目前,口口声声自称热爱开源的微软根本没做过这方面的尝试。另外,如果大家觉得 Copilot 效果挺好,那主要也是因为底层开源训练数据的质量过硬。Copilot 其实是在从开源项目那边吞噬能量,而一旦开源活力枯竭,Copilot 也将失去发展的依凭。 "

绘画AI工具频频被指控抄袭

"我认为这与经济损失无关,也与阻止这项技术的传播无关。重要的是创造一个尊重知识产权的环境。"

2023年1月17日,全球知名图片提供商,华盖创意(Getty Images)起诉AI绘画工具Stable Diffusion的开发者Stability AI,称其侵犯了版权。华盖创意1995年成立于美国西雅图,首创并引领了独特的在线授权模式------在线提供数字媒体管理工具以及创意类图片、编辑类图片、影视素材和音乐产品,目前服务全球120多个国家和地区,全球设有65个分支机构。华盖创意称Stability AI在未经许可或考虑的情况下,从网站上窃取了数百万张图片 训练自己的模型,使用他人的知识产权,为自己的经济利益服务,这不是公平交易,所以公司在采取行动保护公司和艺术家们的知识产权。"

除了图片平台外,个人艺术家也对人工智能有怨言。同月16日,Sarah Andersen、Kelly McKernan和Karla Ortiz三名艺术家对Stability AI(英),另一个AI绘画工具Midjourney(美), 以及艺术家作品集平台DeviantArt(美)提出诉讼,称这些组织通过在"未经原作者同意的情况下"从网络上获取的50亿张图像 来训练其人工智能,侵犯了"数百万艺术家"的权利。有趣的是这个案件的负责律师正是诉讼OpenAI和微软的 Matthew Butterick。他此案描述为 "为每一个人创造公平的环境和市场的第一步" 。但是一审法官驳回了大部分上述诉求,但颁布了法庭许可(leave of court),允许原告在调整、补充起诉事由和证据材料后另行起诉。

事实上,Midjourney 对这类问题表现得不屑一顾。公司 CEO 曾在接受《福布斯》杂志采访时,表达了对版权所有者权利的漠视。"没有经过授权,我们也没办法一一排查上亿张训练图像分别来自哪里。如果再向其中添加关于版权所有者等内容的元数据,那也太麻烦了。但这不是什么大事,毕竟网络上也没有相应的注册表,我们做不到在互联网上找一张图片、然后轻松跟踪它到底归谁所有,再采取措施来验证身份。既然原始训练素材未获许可,那即使在我们这帮非法律出身的外行来看,这都很可能激起各制片方、电子游戏发行商和演员的反抗。"

看不见的幽灵与看得见的恐慌

"一个幽灵,一个AIGC的幽灵,在音乐行业游荡。"

一位名为Ghostwriter977的网友用Drake和The Weeknd的声音对AI模型进行了训练,同时模仿两人的音乐风格,最终生成并发布歌曲《Heart on My Sleeve》。该歌曲在不到两天的时间里,实现了病毒式的传播:这首歌在Spotify上的播放量已超过60万次 ,在TikTok上点击量超1500 万次,完整版在YouTube平台上播放超27.5万次 。值得注意的是,即便发布者并未在演唱信息提及Drake和The Weeknd,但《Heart on My Sleeve》依然火了。对很多人来说,这是AI音乐的第一首出圈之作,这是Ghostwriter用生成式AI进行创作的开始,也是环球音乐加速干预AIGC问题的标志。《Heart on My Sleeve》的蹿红很快吸引到了环球音乐的注意。作为Drake和The Weeknd的幕后唱片公司,环球音乐集团通讯高级副总裁James Murtagh-Hopkins对外发表言辞激烈的声明称:"使用我们旗下的艺术家对AI生成内容进行训练,这既违反了我们的协议,也违反了版权法。" 在环球音乐的投诉下,《Heart on My Sleeve》率先从Spotify和Apple Music下架。紧随其后,YouTube、Amazon Music、SoundCloud、Tidal、Deezer和TikTok也撤下了该歌曲。环球音乐同时指出,在流媒体平台上AI生成内容的可用性引发了一个问题,即音乐行业生态中的所有利益相关者到底希望站在历史的哪一边:"是站在艺术家、粉丝和人类创造性表达的一边,还是站在深度伪造、欺诈和剥夺艺术应得补偿的另一边。 "很显然,Ghostwriter也是最后一根稻草,在忍耐的极限后,业内巨头开启了对AI音乐恐慌的抵抗,环球音乐集团4月发函要求Spotify等音乐流媒体平台切断AI公司的访问权限,以阻止其版权歌曲被用于训练模型和生成音乐。

6年成果,被爬取200+万次,索赔1元

"数据是有价值的,但我们心血更是无价,索赔 1 元是因为公平公正并不能用金钱衡量,我们希望通过诉讼告诉社会这种行为是错误的。人工智能行业的发展,靠的是共同创造,而非觊觎和剽窃他人的成果。"

2023年6月13日下午,笔神作文通过自己的微信公众号、微博和第三方媒体发布消息称,遭到有多年合作关系的"学而思"背刺,在4月的一个周末,自己的数据被学而思被爬虫爬取了超过两百万次 。而后学而思5月就公布进行数学大模型-MathGPT 的研发使用,"未免也太过于'巧合'了"。笔神作文要求学而思公开致歉、删除非法获取的数据并中止应用、求偿1元的诉求。

笔神作文表示自己在成立的6年时间里,每个月都会收到30万篇作文投稿,每个月人工批改超3万篇,总共累积了超过500万篇作文素材,这些数字资产也是员工们的心血。但是随后8月4日笔神作文又发声明称经与学而思深入调查并坦诚沟通后,对双方有争议条款已达成一致,双方已消除误会,并将继续深化合作,共同推进AI技术在教育领域的探索。

著名的ChatGPT,屡屡吃官司

"我们必须阻止这种盗窃行为。为了保护文学,作家必须限制AI能否与如何使用他们的作品。"



早在2023年2月15日,《华尔街日报》记者弗朗西斯科·马可尼 (Francesco Marconi) 公开指控Open AI公司未经授权大量使用路透社、纽约时报、卫报、BBC等国外主流媒体的文章训练ChatGPT模型,但从未支付任何费用。

2023年6月28日,第一起具有代表性的ChatGPT版权侵权之诉,终于出现在了公众视野。两名畅销书作家Paul Tremblay和Mona Awad美国加州北区法院,向OpenAI提起集体诉讼,指控后者未经授权也未声明,利用自身享有版权的图书训练ChatGPT,谋取商业利益。同月16名匿名人士 向美国加利福尼亚旧金山联邦法院提起诉讼,指控ChatGPT在没有充分通知用户,或获得同意的情况下,收集、存储、跟踪、共享和披露了他们的个人信息。他们称受害者据称可能多达数百万人 ,据此要求微软和OpenAI赔偿30亿美元

2023年7月10日,美国喜剧演员和作家萨拉·希尔弗曼(Sarah Silverman)以及另外两名作家Richard Kadrey、Christopher Golden在加州北区法院起诉OpenAI,指控ChatGPT 所用的训练数据侵犯版权。同年9月19日,美国作家协会以及包括《权力的游戏》原著作者乔治·R·R·马丁(George R.R. Martin)在内的17位 美国著名作家向美国纽约联邦法院提起诉讼,指控OpenAI"大规模、系统性地盗窃",称OpenAI在未经授权的情况下使用原告作家的版权作品训练其大语言模型,公然侵犯了作家们登记在册的版权。12月,含多名普利策奖得主在内的11位美国作家,在曼哈顿联邦法院起诉OpenAI和微软滥用自己作品训练大模型,指出这样的行为无疑是在"刮取"作家们的作品和其他受版权保护的材料。他们希望获得经济赔偿,并要求这些公司停止侵犯作家们的版权。

2023 年 12 月 27 日,著名的《纽约时报》申请出战。《New York Times》向曼哈顿联邦法院提起诉讼,指控 OpenAI 和微软未经许可使用该报数百万篇文章训练机器人。《纽约时报》要求获得损害赔偿,还要求永久禁止被告从事所述的非法、不公平和侵权行为,删除包含《纽约时报》作品原理的训练集等。虽然《纽约时报》并未提出具体的赔偿金额要求,但其指出被告应为"非法复制和使用《纽约时报》独特且有价值的作品"和与之相关的"价值数十亿美元的法定和实际损失"负责。作为回应,当地时间 1 月 4 日,OpenAI 知识产权和内容首席 Tom Rubin 在采访中表示,公司近期与数十家出版商展开了有关许可协议的谈判:"我们正处于多场谈判中,正在与多家出版商进行讨论。他们十分活跃积极,这些谈判进展良好。" 据两名近期与 OpenAI 进行谈判的媒体公司高管透露,为了获得将新闻文章用于训练其大语言模型的许可,OpenAI 愿意向部分媒体公司缴纳每年 100 万至 500 万美元的费用。 虽然对于一些出版商来说,这是一个很小的数字,但如果媒体公司数量足够多,对 OpenAI 而言必然是一次"大出血"。

Meta承认使用盗版书籍训练大模型,但否认侵权

2023年7月10日,Sarah等三人起诉OpenAI的同时也起诉了Facebook母公司Meta,指控其侵犯版权,使用包含大量盗版书籍的Books3数据集训练Llama系大模型后。公开资料显示,Books3是一个包含19.5万本图书、总容量达37GB的文本数据集,由AI研究者Shawn Presser于2020年创建,旨在为改进机器学习算法提供更好的数据源,但其中包含大量从盗版网站Bibliotik爬取的受版权保护作品。对此,Meta方面承认其使用Books3数据集的部分内容来训练Llama 1和Llama 2,但否认了侵权行为。对此Meta方面方表示,其使用Books3数据集训练大模型属于合理使用范畴,无需获得许可、署名或支付补偿。同时Meta方面还对该诉讼作为集体诉讼的合法性提出异议,并拒绝向提起诉讼的作家或其他参与Books3争议的人士提供任何形式的经济补偿。

大厂互相薅羊毛的传说

2023年12月16日,北京时间凌晨外媒The Verge报道,在生成式AI的疯狂竞赛中,字节跳动一直在秘密利用OpenAI的技术"走捷径",直指字节跳动在中国使用GPT生成的数据来训练自己的大模型,代号为种子计划(Project Seed),违反了微软和OpenAI的开发者许可。不久后,OpenAI发言人Niko Felix发表声明,确认字节跳动的账户已被暂停并将做进一步调查。没隔几天,谷歌Gemini也出丑闻,在正常对话的情况下承认自己是用文心一言训练中文语料的。网友实测发现,不需要前置对话,不是角色扮演,Gemini直接就会承认自己是文心一言。Gemini Pro会说自己是百度的文心大模型。还说自己的创始人是李彦宏,然后盛赞他是一位「有才华和远见的企业家」。

国外大模型用中国模型产生的中文语料训练,这听起来就是个段子,结果段子竟然成现实了,简直魔幻。但是很快,当界面新闻记者也对Gemini-Pro做类似的身份测试时,发现其已进行了模型优化,不再承认自己与百度之间的"瓜葛"。

结语

"当我们要求 AI 生成"水獭跃出水面的漂亮照片"时,可能没意识到这背后是 Mike Finklestein 在雨中蹲守三个星期才拍下的真实图像"。 随着ChatGPT等生成式AI"一夜成名",人工智能迎来"狂飙"时刻,AI生成内容(AIGC)领域快速发展,重新审视和适应法律框架以保护创意产权也开始受到频繁的讨论。这类案例的发生提醒也在提醒行业人士,人工智能技术的发展必须建立在合法、透明和公正的基础之上,以保护用户和数据所有方的权益,这不仅展示了技术与法律界限的冲突,也为我们提供了宝贵的机会,去思考和塑造一个更加公平、合理的数字未来。

相关推荐
Jackilina_Stone9 分钟前
【AI】简单了解AIGC与ChatGPT
人工智能·chatgpt·aigc
paixiaoxin12 分钟前
学术新手进阶:Zotero插件全解锁,打造你的高效研究体验
人工智能·经验分享·笔记·机器学习·学习方法·zotero
破晓的历程12 分钟前
【机器学习】:解锁数据背后的智慧宝藏——深度探索与未来展望
人工智能·机器学习
AiBoxss15 分钟前
AI工具集推荐,简化工作流程!提升效率不是梦!
人工智能
crownyouyou20 分钟前
最简单的一文安装Pytorch+CUDA
人工智能·pytorch·python
鸽芷咕23 分钟前
【Python报错已解决】libpng warning: iccp: known incorrect sRGB profile
开发语言·python·机器学习·bug
WenGyyyL23 分钟前
变脸大师:基于OpenCV与Dlib的人脸换脸技术实现
人工智能·python·opencv
首席数智官25 分钟前
阿里云AI基础设施全面升级,模型算力利用率提升超20%
人工智能·阿里云·云计算
吱吱鼠叔26 分钟前
MATLAB数学规划:2.线性规划
算法·机器学习·matlab
张琪杭28 分钟前
基于CNN的10种物体识别项目
人工智能·神经网络·cnn