如何修复“AI的原罪”

如何修复"AI的原罪"

上个月，《纽约时报》声称，科技巨头OpenAI和谷歌不顾服务条款和版权法的禁止，将大量YouTube视频转录成文本，并将其用作人工智能模型的额外训练数据，从而进入了版权灰色地带。《纽约时报》还援引Meta官员的话说，除非他们跟随OpenAI和谷歌的步伐，否则他们的模型将无法跟上。在《纽约时报》播客《每日》(the Daily)上，主持人迈克尔·巴巴罗(Michael Barbaro)与报道此事的记者凯德·梅斯(Cade Metz)进行了对话，称侵犯版权是"人工智能的原罪"。

至少，到目前为止，版权似乎是争夺谁能从生成式人工智能中获利的主要战线之一。现在还完全不清楚谁站在法律的正确一边。康奈尔大学的凯瑟琳·李、a·费德·库珀以及微软研究院和耶鲁大学的詹姆斯·格里梅尔曼在一篇著名的文章《谈论人工智能的产生:版权和生成式人工智能供应链》中指出:

版权法是出了名的复杂，而生成人工智能系统设法触及了它的许多角落。它们提出了作者身份、相似性、直接和间接责任、合理使用和许可等诸多问题。这些问题不能孤立地分析，因为到处都有联系。生成式人工智能系统的输出是否合理使用取决于其训练数据集的组装方式。生成型人工智能系统的创造者是否承担次要责任取决于其用户提供的提示。

但是，深入探讨版权法的细节和关于侵权责任的争论似乎不那么重要了，相反，在新兴的人工智能服务领域，探索受版权保护内容的政治经济学:谁将得到什么，为什么?我们不应该问谁拥有赢得这场拉锯战的市场力量，而应该问的是，需要什么样的机构和商业模式来分配"生成式人工智能供应链"所创造的价值，使其与各方在创造价值链中所扮演的角色成比例?我们如何创造一个持续的价值创造的良性循环，一个每个人都受益的生态系统?

出版商(包括起诉OpenAI侵犯版权的《纽约时报》本身)认为，生成艺术和文本等作品与人工智能训练的创作者存在竞争。特别是，《纽约时报》认为，人工智能生成的新闻摘要是对原创文章的替代，会损害该报的业务。他们希望自己的工作得到报酬，并保留现有的业务。

与此同时，人工智能模型开发者需要找到一种商业模式来回报所有的投资，他们已经获得了大量的资本。《纽约时报》记者凯德·梅斯(Cade Metz)提出了一种世界末日式的利害关系框架，并对可能的结果持二元观点。在接受《每日邮报》采访时，梅斯表示

陪审团、法官或法律对OpenAI不利的裁决都可能从根本上改变这项技术的构建方式。极端的情况是，这些公司不再被允许在制造这些聊天机器人时使用受版权保护的材料。这意味着他们必须从零开始。他们必须重建他们所建立的一切。所以这不仅会危及他们现在拥有的东西，也会危及他们未来想要建设的东西。

在最初关于OpenAI和谷歌的行动以及Meta内部争论的报道中，梅茨引用了硅谷风投公司安德森·霍洛维茨(Andreessen Horowitz)的律师赛·达姆尔(Sy Damle)的话，他说:"这些工具存在的唯一可行方法是，它们可以在不需要授权的情况下接受大量数据的训练。"所需的数据是如此之大，以至于即使是集体许可也行不通。"

"唯一可行的方法"?真的吗?

相反，我认为这个问题不仅可以解决，而且可以为人工智能模型提供商和基于版权的业务创造一个新的黄金时代。我们缺少的是适合人工智能生态系统的架构，以及合适的商业模式。

拆解问题

让我们先分析一下"受版权保护的内容"。版权保留创作者出版其作品并从中获利的专有权。它保护的不是事实或思想，而是对这些事实或思想的独特的"创造性"表达。独特的创造性表达是所有人类交流的基础。使用生成式人工智能工具的人类确实经常将其作为增强自己独特创造性表达的一种方式。真正有争议的是谁能从这种独特的创造性表达中获利。

并非所有受版权保护的内容都是为了盈利而创造的。根据美国版权法，以任何形式发表的任何东西，包括在互联网上发表的东西，其版权自动为作者所有，有效期为创作者的一生加上70年。其中一些内容旨在通过广告、订阅或个人销售来货币化，但这并不总是正确的。虽然博客或社交媒体帖子、YouTube园艺或管道教程、音乐或舞蹈表演隐含地受其创作者的版权保护(还可能包括受版权保护的音乐或其他受版权保护的组件)，但它意味着可以自由共享。然而，即使是那些旨在自由分享的内容，也期望以认可和关注的形式获得报酬。

那些打算将其内容商业化的人通常会以某种方式表明这一点。例如，书籍、音乐和电影都有版权声明，并在版权局注册(在侵权事件中，它赋予了额外的损害赔偿权利)。有时这些通知甚至是机器可读的。一些在线内容受到付费墙的保护，需要订阅才能访问。有些内容在网站的HTML代码中被标记为"noindex"，表明它不应该被搜索引擎(可能还有其他网络爬虫)爬行。有些内容明显与广告有关，这表明它正在被货币化。搜索引擎会"阅读"它们能读到的所有东西，但合法的服务通常会尊重那些告诉它们"不"的信号，不会去它们不该去的地方。

人工智能开发人员肯定认识到这些区别。正如《纽约时报》文章开头提到的那样，"人工智能研究人员说，最珍贵的数据是高质量的信息，比如出版的书籍和文章，这些都是由专业人士精心撰写和编辑的。"正是因为这些内容更有价值，所以AI开发者寻求无限的能力来训练所有可用的内容，而不管其版权状况如何。

接下来，让我们来分析一下"合理使用"。合理使用的典型例子是引用、以批评或评论为目的的图像复制、模仿、摘要，以及在最近的先例中，帮助搜索引擎或社交媒体用户决定是否消费内容的链接和片段。合理使用通常仅限于相关作品的一部分，因此复制的内容不能替代原始作品。

有必要再次作出不合法但实际可行的区分。如果人工智能的长期健康发展需要持续生产精心编写和编辑的内容------就像人工智能知识的货币一样------那么只有通过让人工智能公司饮用的河流干涸，才能找到最短期的商业优势。事实不受版权保护，但如果新闻和其他精心策划的内容来源被赶出市场，站在法律条文上的人工智能模型开发者将得不到任何安慰。

人工智能生成的对丹尼斯·维伦纽夫的小说《沙丘》的评论，或者对弗兰克·赫伯特原著小说的情节总结，都不会影响新小说或电影的制作。但新闻文章或博客文章的摘要可能确实是一个足够的替代品。如果新闻和其他形式的高质量、精心策划的内容对未来人工智能模型的发展很重要，那么人工智能开发者应该努力研究它们将如何影响这些来源的未来健康发展。

将人工智能摘要与过去搜索引擎和社交媒体网站提供的摘要和链接进行比较是有启发意义的。谷歌和其他公司已经正确地指出，搜索引擎为网站带来流量，然后这些网站可以通过自己的广告(或与谷歌合作的广告)、订阅，或者仅仅通过创作者在人们发现他们的作品时获得的认可，按自己的意愿将其货币化。当可以选择退出搜索时，很少有网站选择这样做，这一事实提供了充分的证据，至少在过去，版权所有者已经认识到他们从搜索和社交媒体中获得的好处。事实上，他们通过搜索引擎优化和社交媒体营销来争夺更高的知名度。

但是，网络出版商当然有理由担心，人工智能生成的摘要不会像更传统的搜索或社交媒体摘要那样为网站带来流量。人工智能提供的摘要远比搜索和社交媒体提供的内容丰富，在新闻、产品搜索或搜索事实答案等情况下，摘要可能提供合理的替代品。当读者看到一个引用了他们信任的来源的人工智能答案时，他们很可能会相信它的表面价值，然后继续往下看。这不仅应该关注那些曾经接收流量的网站，也应该关注那些曾经驱动流量的网站。因为从长远来看，如果人们停止创造高质量的内容，整个生态系统就会崩溃。

这不是一场任何一方都希望"获胜"的战斗。相反，这是一个思考如何加强两种公共产品的机会。新闻学教授杰夫·贾维斯(Jeff Jarvis)在回应这篇文章的早期草稿时说得很好:"让人工智能产生高质量和可信的输出(如果'幻觉'可以克服的话)符合公共利益。有原创质量、可信和艺术内容的创作才是公益。如果人工智能训练和输出中排除了高质量、可信的内容，或者没有创造高质量、可信的内容，那么人工智能就不符合公共利益。"我们需要同时实现这两个目标。

最后，让我们解开AI与其训练数据的关系，无论是否受版权保护。在训练过程中，AI模型学习其训练集中的单词或图像之间的统计关系。正如Derek Slater所指出的，就像音乐的和弦进行一样，这些关系可以被视为表达的"基本构建块"。模型本身不包含任何人类可识别形式的训练数据副本。相反，它们是概率的统计表示，基于训练数据，一个单词将跟随另一个单词，或者在图像中，一个像素将与另一个像素相邻。给定足够的数据，这些关系是非常健壮和可预测的，以至于生成的输出可能与训练数据的元素非常相似或重复。

知道摄入了什么内容当然是值得的。强制要求训练数据集(生成式人工智能供应链)的内容和来源透明化，将大大有助于鼓励争议各方之间的坦率讨论。但是，把注意力集中在与训练数据无意中相似的例子上，没有抓住重点。

最近Stack Overflow的长期贡献者提出抗议，他们不希望公司使用他们的答案来训练OpenAI模型，这凸显了问题的另一个方面。这些用户为Stack Overflow贡献了他们的知识;给予公司对他们的答案永久和独家的权利。他们没有保留经济权利，但他们仍然相信自己有精神权利。他们一直期望，他们的知识会得到认可。他们关心的不是训练本身，而是训练结果可能不再给他们应得的荣誉。

最后，编剧协会的罢工确立了谁能从人工智能衍生作品中获益的界限。内容创作者是否有权从其作品的人工智能衍生品中获利，或者当他们的作品被用来培训他们的替代者时，他们是否会被解雇?(更具体地说，协议规定人工智能作品不能被视为"原始材料"。也就是说，工作室不能让AI完成初稿，然后把编剧当成只是"改编"草稿的人，这样就能少付给他们钱。)正如和解所表明的那样，这不是一个纯粹的经济或法律问题，而是一个市场力量问题。

总而言之，这个问题有三个部分:首先哪些内容作为训练数据的一部分被摄取，允许哪些输出，以及谁能从这些输出中获利。因此，AI模型开发者应该如何处理受版权保护的内容，以下是一些指导原则:

在实现这一目标方面已经取得了一些进展。部分由于欧盟人工智能法案，很可能在未来12个月内，每个主要的人工智能开发商都将实施机制，让版权所有者以机器可读的方式选择退出。OpenAI已经允许网站使用robots.txt文件禁用其GPTBot网络爬虫，谷歌也对其网络扩展爬虫做了同样的事情。此外，还有Do Not Train数据库和Cloudflare Bot Manager等工具。OpenAI即将推出的媒体管理器承诺"让创作者和内容所有者告诉我们他们拥有什么，并指定他们希望自己的作品如何被包括或排除在机器学习研究和培训之外。"这是有帮助的，但还不够。即使在今天的互联网上，这些机制也是脆弱而复杂的，经常变化，而且内容被抓取的网站往往不能很好地理解。

但更重要的是，简单地给予内容创作者选择退出的权利是错过了真正的机会，这是为训练人工智能收集数据集，专门识别版权状态和内容创作者的目标，从而成为新的人工智能经济的潜在机制。正如超级成功的游戏开发者Dodge (Neal Stephenson的小说《Reamde》的主角)所指出的那样，"你必须弄清楚整个资金流动系统。一旦做到了这一点，其他的事情就会随之而来。"

2.在创作作品时，应尊重资料的来源和版权的性质。

这与防止许多其他类型的争议内容(如仇恨言论、错误信息和各种其他类型的禁止信息)所面临的挑战没有什么不同。我们都被多次告知，ChatGPT、Claude或Llama 3不允许回答特定问题或使用它本来可以生成的特定信息，因为它会违反反对偏见、仇恨言论、错误信息或危险内容的规则。事实上，OpenAI在给版权局的评论中描述了它如何提供类似的护栏，以防止ChatGPT产生侵犯版权的内容。我们需要知道的是它们有多有效，部署有多广泛。

已经有一些技术可以识别与某些类型的用户查询最密切相关的内容。例如，当谷歌或必应提供人工智能生成的网页或新闻摘要时，你通常会在摘要下方看到链接，这些链接指向生成该摘要的页面。这是使用一种称为检索增强生成(retrieve -augmented generation, RAG)的技术完成的，该技术生成一组矢量化的搜索结果，提供一个权威的来源供模型在生成响应之前参考。据说，生成法学硕士已经在这些矢量化搜索结果提供的文件中建立了响应基础。从本质上讲，它不是反刍来自预训练模型的内容，而是对这些源片段进行推理，以基于它们得出清晰的响应。简而言之，受版权保护的内容已被摄取，但在输出阶段将其作为整个内容管理管道的一部分进行检测。随着时间的推移，可能会有更多这样的技术。

一个争论激烈的问题是，这些链接是否提供了与上一代搜索和社交媒体片段相同的流量水平。谷歌声称，它的人工智能摘要比传统的摘要带来了更多的流量，但它没有提供任何数据来支持这一说法，而且可能是基于对点击率的非常狭隘的解释，正如最近的一项搜索引擎分析所解析的那样。我的猜测是，就像过去的搜索引擎算法更新一样，会有一些赢家和一些输家，更不用说进一步的更新了，网站现在恐慌或起诉还为时过早。

但是缺少一种更通用的基础设施来检测内容所有权并以通用的方式提供补偿。这是未来几年的巨大商机之一，等待着点击付费搜索广告给万维网带来的那种突破。

以图书为例，与其对已知的盗版内容来源进行培训，不如建立一个图书数据共享，并额外努力保存其中包含的作品的版权状态信息。这个公地不仅可以作为人工智能训练的基础，也可以作为衡量向量与现有作品相似度的基础。人工智能模型开发人员已经使用过滤版本的Common Crawl Database，该数据库为大多数法学硕士提供了很大比例的训练数据，以减少仇恨言论和偏见。为什么不为版权做同样的事情呢?

3. 为产出付费，而不是为培训付费。对于现有的版权所有者来说，这似乎是一个巨大的胜利，因为他们可以获得数百万美元的使用他们控制的内容的许可费。首先，只有财力最雄厚的人工智能公司才有能力为最有价值的内容先发制人，这将加深它们与小型开发商和开源模型之间的竞争。其次，这些费用可能不足以成为可持续长期业务和创意生态系统的基础。一旦你给鸡发了许可证，被许可人就得到了鸡蛋。(汉密尔顿·诺兰称之为"卖房换柴火")第三，报酬通常流向中介，而不是流向真正的创作者。

在许多方面，YouTube的内容识别系统为如何实现这一过程的自动化提供了一个有趣的先例。根据YouTube对该系统的描述，

阻止视频被观看
通过在视频上投放广告，有时与上传者分享收益来盈利
跟踪视频的收视率统计

可以想象，这种版权执行框架由平台自己运营，就像YouTube运营Content ID一样，或者由第三方服务运营。这个问题显然比YouTube面临的问题更困难，YouTube只需要找到相对固定格式的音乐和视频匹配，但今天的工具更复杂。正如RAG所演示的那样，矢量数据库甚至可以在完全不同的输出中找到加权相似度。

当然，还有很多问题需要解决。使用向量相似性进行归因是很有前途的，但也存在一些局限性。想想泰勒·斯威夫特。她是如此受欢迎，以至于有许多艺术家试图模仿她的声音。这就形成了一种没有明显解决方案的对抗局面。想象一个矢量数据库里面有泰勒和一千个泰勒的模仿者。现在想象一首"听起来像泰勒"的人工智能歌曲。谁获得收益?它是最接近的100个向量(其中99个是泰勒的廉价模仿者)吗?还是泰勒自己应该得到大部分收入?关于如何权衡相似性有很多有趣的问题------就像传统搜索中关于如何权衡各种因素以得出搜索查询的"最佳"结果的有趣问题一样。解决这些问题是创新(和竞争)的前沿。

一种选择可能是检索生成的原始材料(而不是使用RAG进行归属)。想要写出一段听起来像史蒂芬·金的文字吗?显式检索斯蒂芬金的一些表示，从它生成，然后支付斯蒂芬金。如果你不想为斯蒂芬·金的质量买单，那也行。您的文本将生成从低质量批量许可的"恐怖神秘文本"作为您的驱动程序。在这个理想中有一些相当天真的假设，即如何将其扩展到数百万或数十亿的内容提供商，但这正是它成为一个有趣的创业机会的原因。对于像音乐这样由明星驱动的媒体领域来说，这绝对是有意义的。

我的观点是，人工智能创新的前沿之一应该是技术和商业模式，以实现内容创作的繁荣生态系统，这种生态系统已经成为网络以及音乐和视频在线分发的特征。明白这一点的人工智能公司将创造一个良性的飞轮，奖励内容创造，而不是把这个行业变成一个榨取的死胡同。

人工智能的参与架构

大型人工智能提供商之间的垄断竞争，让版权问题看起来难以解决。他们中的许多人似乎想象AI的架构是某种版本的"一个戒指统治所有人"，"你所有的基地都属于我们"，或者博格。这种架构与早期在线信息提供商(如美国在线和微软网络)的模式没有什么不同。它们是集中式的，旨在将每个人的内容作为其服务的一部分。这只是一个谁将赢得最多用户和托管最多内容的问题。

万维网(以及其底层的互联网本身)有着根本不同的理念，我称之为"参与架构"。任何人都可以托管自己的内容，用户可以从一个站点浏览到另一个站点。每个网站和每个浏览器都可以就哪些内容可以自由观看、哪些内容受限制以及哪些内容必须付费进行沟通并达成一致。它极大地扩大了创意、出版和版权货币化的机会。

就像互联网的网络协议一样，Unix和Linux编程的设计设想了一个相互协作的程序独立开发并组装成一个更大的整体的世界。Unix/Linux文件系统有一组简单但功能强大的访问权限，分为三个级别:用户、组和世界。也就是说，有些文件仅对文件的创建者私有，有些文件对指定的组私有，还有一些文件对任何人都可读。

和我一起想象一下，一个人工智能的世界，它的工作方式很像万维网或像Linux这样的开源系统。基础模型理解人类提示，可以生成各种各样的内容。但他们在一个内容框架内运作，这个内容框架经过培训，可以识别受版权保护的材料，并知道他们可以用它做什么，不能用它做什么。有一些集中式模型是在所有可自由阅读的内容(世界许可)上进行训练的，另一些模型是基于属于特定群体的内容(可能是公司或其他组织、社会、国家或语言群体，或任何其他合作聚合)，还有一些模型是基于属于个人的独特内容语料库。

在ChatGPT或Claude或任何一个大型集中式模型上建立这样一个世界是可能的，但它更有可能出现在用较小的分布式模型构建的协作AI服务上，就像网络是由协作web服务器构建的，而不是在AOL或微软网络上构建的一样。我们被告知，开源人工智能模型比大型集中式模型风险更大，但重要的是要对它们的收益和风险进行清晰的评估。开源不仅可以更好地实现创新，还可以更好地实现控制。如果有一个开放的协议，内容所有者可以向人工智能搜索提供商开放他们的存储库，但对内容的处理方式，特别是货币化方式进行控制和取证，那会怎么样?

许多受版权保护内容的创作者将很乐意让他们的内容被集中的、专有的模式所吸收，并被他们自由使用，因为他们从中获得了很多好处。这很像今天的互联网用户乐于让集中的提供商收集他们的数据，只要这些数据是为他们所用，而不是针对他们。一些创作者会很乐意让中心化的模式使用他们的内容，只要他们能从中获利。其他创作者也会想要自己从中获利。但是，如果中心化的人工智能提供商能够吸收所有内容，并在没有补偿的情况下输出可能侵权或竞争的内容，那么任何人都很难自由地做出这一选择。

你能想象这样一个世界吗:向人工智能聊天机器人提出一个问题，有时可能会立即得到一个答案，有时相当于"对不起，戴夫，我恐怕不能这样做"(就像你现在被告知，当你试图生成被禁止的言论或图像时，但在这种情况下，由于版权限制)，而在其他情况下，"我不能为你做，戴夫，但纽约时报聊天机器人可以。"在其他时候，通过双方的协议，基于受版权保护的数据的答案可能直接在服务中给出，但权利持有人将得到补偿。

我们越来越多地使用人工智能来帮助我们的作者和编辑生成内容，如摘要、翻译和转录、测试问题和评估，作为涉及编辑和主题专家审查的工作流程的一部分，就像我们编辑和开发潜在的书籍和视频一样。我们还在构建动态生成的面向用户的人工智能内容，这些内容还可以跟踪来源，并与我们的作者和出版合作伙伴分享收入。

例如，对于我们的"Answers"特性(与Miso合作构建)，我们使用RAG架构构建了一个研究、推理和响应模型，该模型在内容中搜索最相关的结果(类似于传统搜索)，然后根据这些特定结果生成针对用户交互的响应。

因为我们知道哪些内容被用于生成答案，所以我们不仅能够提供用于生成答案的来源的链接，还能够根据作者的内容在生成答案中所扮演的角色比例向作者支付报酬。正如Lucky Gunasekara、Andy Hsieh、Lan Le和Julie Baron在《RAG中的R代表版税》中所写的那样:

从本质上讲，最新的O 'Reilly Answers版本是LLM工人的装配线。每个人都有自己独立的专业知识和技能，当他们接受问题或查询时，他们一起协作，推理意图是什么，研究可能的答案，并在撰写引用支持的基础答案...之前批判性地评估和分析该研究最终的结果是，O 'Reilly Answers现在可以批判性地研究和回答问题，以更丰富、更沉浸式的长篇回答，同时保留其原始版本...中非常重要的引用和源参考

使用当今领先的开源法学硕士构建Answers作为研究、推理和写作管道的好处是，它可以回答的问题的稳健性将继续增加，但系统本身将始终基于来自O 'Reilly学习平台内容的权威原创专家评论。

如果我们能做到，我们知道其他人也能做到。