赔偿30亿？OpenAI因版权被多方状告，作家集体起诉，抗议ChatGPT训练侵权

【新智元导读】OpenAI深陷集体诉讼+作家个人起诉，版权问题究竟何解？

最近，OpenAI又摊上事了。

之前Sam Altman在国会山舌战参议员，帮OpenAI搞定了监管层。

但俗话说得好，阎王好见，小鬼难缠。

没想到OpenAI最近却被美国的律所和作家们给盯上了。

最近纷纷跳出来起诉OpenAI，要求数额不菲的赔偿金。

起诉理由是，训练数据侵权。

律所提起集体诉讼

6月28号，位于北加州的Clarkson律所对OpenAI提起了集体诉讼。

指控OpenAI在训练大模型时从网上抓取的数据，严重侵犯了16名原告的著作权和隐私，要求赔偿30亿美金。

克拉克森诉讼的核心主张是 OpenAI 的整个商业模式都是基于盗窃。

律所合伙人克拉克森 (Ryan Clarkson) 表示：

「律所代表那些信息被窃取，用来创造了这项强大技术的真实存在的普通人主张自己的合法权利。」

该诉讼特别指控该OpenAI：

「在未经知情同意或不知情的情况下，使用从数亿互联网用户（包括各个年龄段的儿童）窃取的私人信息（包括个人身份信息）来创建其产品。」

律师主导的集体诉讼制度

要看懂这个事情的来龙去脉，必须稍微了解一下美国的集体诉讼制度。

简单来说，大部分的诉讼，原告的个数是有限而且明确的，而集体诉讼，是一大群人提起的诉讼。

集体诉讼制度是因为某个事件的受害人太多，而且往往单个受害人的受到的损害太小，不适合单独起诉，所以就可以由原告组成集体，集体起诉被告。

比较典型的是环保类的案件，比如某个公司排污影响了周围的居民，居民集体起诉公司。

或者是某个大公司的制度侵犯了很多员工的权益。

但是集体诉讼和普通诉讼有一个很大的不同之处在于，发起者往往不是原告人，而是代理律师。

因为在集体诉讼中，代理律师会要求很高的代理费，可能会超过赔偿额的50%，有个别夸张的案件甚至会达到80%。

而原告方，很多时候是被发起诉讼的律师主动找上家门，签个字同意律师代理，如果打赢了，能拿到一些赔偿金。

如果官司打输了，大部分情况下就不需要出律师费。

律师在获得了一大批原告的授权之后，就以「原告集体」的名义向法院提起诉讼，要求被告赔偿。

因为原告数量比较多，如果官司打赢了，获得的总体赔偿额往往会比较多。

而律师因为在这类案件中占有主导地位，会有很高的律师费抽成比例，往往会比受害者获得更多的经济利益。

比如苹果公司前不久，就因为下班对员工搜宝检查的制度，最后在集体诉讼中和员工达成和解，向员工支付了3050万美元，平均每个员工能获得1328美元的赔偿。

但是却要向律师支付900万美元左右的律师费。

而律师或者律所本身，也会因为集体诉讼案件广泛的影响力，在业界获得更高的名声。

Clarkson律师事务所

某种程度上，很多美国集体诉讼案件真正的「原告」，往往是能获得更多经济收入的律师，而非真实的受害「原告」。

而这起针对OpenAI的集体诉讼，代理律所Clarkson LLP，就是一家成立于2014年，几乎只从事集体诉讼业务的律所。

相较美国很多有几十上百年历史的律所，克拉克森可谓是一家婴儿律所。

但是最近几年却打赢了不少针对食品，药品制造商的集体诉讼案件。

这次对于OpenAI的起诉也是由律所的冠名合伙人Ryan Clarkson本人亲自办理。

现在他们律所网站，已经把自己起诉OpenAI的信息置顶了。

网站浏览者随时随地都可以看到这条信息。

看得出来，这次他们是要「All in OpenAI」，打响「大模型侵权案件的第一枪」。

无法可依，结局难料

美国对于大模型训练数据的立法还没有通过。

而在国会立法程序给出明确规定之前，法官很有可能会参考已经有的隐私权和著作权的案例，在这个案件中做出对原告有利的认定。

在没有明确法律规则的背景之下，案件很有可能会朝着不利于OpenAI的方向发展。

只要这家律所不是无理取闹，而OpenAI又急于摆脱类似的诉讼麻烦。

这个案子很有可能会像大多数的集体诉讼案件一样，以和解结束。

原告和律师很有可能获得一笔数额不菲的和解金。

原告律所也会因为代理这个可能具有划时代意义的案件而继续巩固自己在业界的地位。

而后续，OpenAI和其他大模型提供商可能都会面对更多类似的法律诉讼。

直到有相关的法律出台，明确训练数据方面的具体规则。

更多诉讼事件

而除了上面提到的律所集体诉讼，个人因为被侵权而直接起诉OpenAI的例子也不少。

而这样的案件，主要是由对书籍享有著作权的作家提起的。

最近，两位曾获过奖的作者就起诉了OpenAI，指控他们在未经同意的情况下使用他们出版的书籍来训练 ChatGPT，违反了版权法。

该诉讼于6月底提起，两位作家表示，ChatGPT的底层LLM直接拿来就用了原告作者Mona Awad和Paul Tremblay的受版权保护的作品。

他们认为，ChatGPT能够生成其作品的详细摘要，这就表明他们的书籍肯定已经包含在了用于训练的数据集中。

美国一所大学的法学教授Daniel Gervais在接受Insider采访时表示，作家的诉讼是全国范围内针对生成式AI的少数版权案件之一。

「这绝对不会是最后一次。」

Gervais预计，随着这些AI在复制作家和艺术家风格方面的能力不断得到发展和改进，更多的作者将加入起诉开发LLM和AI公司的行列。

他认为，全国范围内，针对ChatGPT等生成式AI工具的一大波法律挑战即将到来。

投诉中写道，想要证明该案的作者因OpenAI的数据收集行为而遭受了金钱损失这一点，可能具有一定的挑战性。

Gervais告诉Insider，ChatGPT也可能从作者以外的其他来源收集了Awad和Tremblay的作品。

Sussex大学AI和版权专家Andres Guadamuz也表达了这种担忧。

他告诉Insider，即使这些书籍在OpenAI的训练数据集里，OpenAI其实也可以是通过合法途径来得到这些作品的。

美国作家协会是一个支持作家工作权利的倡导组织，上周他们发表了一封公开信，呼吁大型科技和AI公司的CEO能去获得「作家的许可」，再使用他们的受版权保护的作品来训练LLM。

同时，应该「公平地补偿作家」。

截止目前，这封公开信已经获得了超过2000个签名。

目前，Awad和Tremblay正在寻求损失赔偿。

在诉讼中还包含了ChatGPT创作的Awad的小说：「看待胖女孩的13种方式」(13 Ways of Looking at a Fat Girl)和「兔子」(Bunny)的摘要,以及Tremblay的「世界尽头的小屋」(The Cabin at the End of the World).

OpenAI和Awad、Tremblay都没有回应Insider的置评请求。

无独有偶，喜剧演员兼作家Sarah Silverman，以及作家Christopher Golden、Richard Kadrey也在美国地方法院上诉了，他们分别起诉的是OpenAI和Meta ，同样指控其侵犯版权。

这些诉讼称，OpenAI的ChatGPT和Meta的LLaMA都有用非法获取的数据集进行训练的行为，而这些数据集中就包含他们的作品。

他们表示，这些数据集是从Bibliotik、Library Genesis、Z-Library等网站获取的，并指出这些书可以批量获取。

在针对OpenAI的诉讼中，三人提供的证据表明，当出现相关的prompt时，ChatGPT会总结他们的书籍，他们认为，这是对他们作品版权的侵犯。

Silverman的「Bedwetter」是ChatGPT在展品中展示的第一本书，而Golden的书「Ararat」和Kadrey的「Sandman Slim」也被用作了示例。

至于针对Meta的单独诉讼，情况也差不多。Meta用于训练LLaMA模型的数据集中也能访问该作者的书籍。

而在该投诉，详细的分步阐述了原告为何认为这些数据集的来源是非法的------在一篇有关LLaMA的论文中，Meta指出了其训练数据集的来源，其中一个名为「ThePile」。

诉状指出，EleutherAI的一篇论文将「ThePile」描述为由Bibliotik内容的副本拼凑而成的，而Bibliotik本身就不合法。

在这两项声明中，参与的作者均表示，他们不同意AI公司使用其受版权保护的书籍作为LLM的训练内容。

他们的诉讼均包含六项不同类型的侵犯版权、疏忽、不当得利和不正当竞争罪名。

目前，这些作者也正在寻求法定损失赔偿、利润归还等。

除了书圈，Getty Images还提起了一项诉讼，指控创建Stable Diffusion的Stability AI在「数百万张受版权保护的图像」上训练其模型。