什么是语言模型

什么是语言模型？
简史
为什么开设这门课程？
本课程的结构

什么是语言模型？

语言模型的经典定义是一个关于 token 序列的概率分布。假设我们有一个 token 集合的词汇表 V。一个语言模型 p 为每个 token 序列 x1,...,xL∈V 分配一个概率（一个介于 0 和 1 之间的数字）：

p(x1,...,xL).

这个概率直观地告诉我们一个 token 序列有多"好"。例如，如果词汇表是 V={吃了, 球, 奶酪, 老鼠, 这}，语言模型可能会分配（演示）：

p(这, 老鼠, 吃了, 这, 奶酪) = 0.02,

p(这, 奶酪, 吃了, 这, 老鼠) = 0.01,

p(老鼠, 这, 这, 奶酪, 吃了) = 0.0001.

从数学上讲，语言模型是一个非常简单和优美的对象。但这种简单性具有欺骗性：为所有序列分配（有意义的）概率需要非凡的（但隐含的）语言能力和世界知识。

例如，LM 应该给"老鼠这这奶酪吃了"分配非常低的概率，因为它不合语法（句法知识）。LM 应该给"这老鼠吃了这奶酪"分配比"这奶酪吃了这老鼠"更高的概率，这是因为世界知识：两个句子在句法上相同，但在语义合理性上不同。

生成。 如上所定义，语言模型 p 接受一个序列并返回一个概率来评估其好坏。我们也可以给定语言模型生成一个序列 。最纯粹的方法是按照概率 p(x1:L) 从语言模型 p 中采样一个序列 x1:L，表示为：

x1:L ∼ p.

如何高效地进行计算取决于语言模型 p 的形式。在实践中，我们通常不直接从语言模型采样，既因为实际语言模型的局限性，也因为我们有时希望获得更接近"最佳"的序列，而不是"平均"序列。

自回归语言模型

使用概率的链式法则来表示序列 x1:L 的联合分布 p(x1:L) 是一种常见的方式：

p(x1:L) = p(x1) p(x2∣x1) p(x3∣x1,x2) ⋯ p(xL∣x1:L−1) = ∏i=1L p(xi∣x1:i−1).

例如（演示）：

p(这, 老鼠, 吃了, 这, 奶酪) = p(这) p(老鼠∣这) p(吃了∣这,老鼠) p(这∣这,老鼠,吃了) p(奶酪∣这,老鼠,吃了,这).

特别是，p(xi∣x1:i−1) 是给定前面 token x1:i−1 时下一个 token xi 的条件概率分布。

当然，任何联合概率分布在数学上都可以这样写，但自回归语言模型是指每个条件分布 p(xi∣x1:i−1) 都可以高效计算（例如，使用前馈神经网络）的模型。

生成。 现在要从自回归语言模型 p 生成整个序列 x1:L，我们根据已生成的 token 逐个采样每个 token：

for i = 1, ..., L: xi ∼ p(xi∣x1:i−1)1/T,

其中 T≥0 是一个温度参数，控制我们希望从语言模型中获取多少随机性：

T=0：在每個位置 i 确定性地选择最可能的 token xi
T=1：从纯语言模型中"正常"采样
T=∞：从整个词汇表 V 上的均匀分布中采样

然而，如果我们只是将概率提高到 1/T 次方，概率分布的总和可能不为 1。我们可以通过重新归一化分布来解决这个问题。我们将归一化后的版本 pT(xi∣x1:i−1)∝p(xi∣x1:i−1)1/T 称为退火条件概率分布。例如：

p(奶酪) = 0.4, p(老鼠) = 0.6

pT=0.5(奶酪) = 0.31, pT=0.5(老鼠) = 0.69

pT=0.2(奶酪) = 0.12, pT=0.2(老鼠) = 0.88

pT=0(奶酪) = 0, pT=0(老鼠) = 1

旁注：退火是冶金学中的一个参考，指热材料逐渐冷却，并出现在采样和优化算法中，如模拟退火。

*技术说明：对每个条件分布 p(xi∣x1:i−1)1/T 使用温度 T 参数进行迭代采样，并不等同于（除非 T=1）从长度为 L 的序列上的退火分布中采样。*

条件生成。 更一般地，我们可以通过指定某个前缀序列 x1:i（称为提示）并采样其余部分 xi+1:L（称为补全）来执行条件生成。例如，使用 T=0 生成会产生（演示）：

这,老鼠,吃了 提示 ⇝T=0 这,奶酪 补全。

如果我们将温度改为 T=1，我们可以得到更多变化（演示），例如，"它的房子"和"我的作业"。

我们很快就会看到，条件生成通过简单地改变提示，释放了语言模型解决各种任务的能力。

总结

语言模型是序列 x1:L 的概率分布 p。
直观上，一个好的语言模型应该具有语言能力和世界知识。
自回归语言模型允许在给定提示 x1:i 的情况下高效生成补全 xi+1:L。
温度可用于控制生成中的可变性量。

简史

信息论、英语熵、n-gram 模型
- 信息论。 语言模型可以追溯到克劳德·香农，他于 1948 年发表了开创性论文《通信的数学理论》，奠定了信息论的基础。在这篇论文中，他引入了分布的熵：
  
  H(p) = ∑x p(x) log 1/p(x).
  
  熵衡量了任何算法将样本 x∼p 编码（压缩）成比特串所需的预期比特数：
  
  "这老鼠吃了这奶酪" ⇒ 0001110101.
  
  熵越低，序列"结构"越好，代码长度越短。
  
  直观地说，log 1/p(x) 是用于表示概率为 p(x) 的元素 x 的代码长度。
  
  如果 p(x)=1/8，我们应该分配 log2(8)=3 比特（等价于 log(8)=2.08 奈特）。
  旁注：实际上达到香农极限是非平凡的（例如，LDPC 码），并且是编码理论的主题。
- 英语熵。 香农对衡量英语的熵特别感兴趣，英语被表示为一系列字母。这意味着我们想象存在一个"真实"的分布 p（这存在疑问，但它仍然是一个有用的数学抽象），可以产生英语文本样本 x∼p。
- 香农还定义了交叉熵：
  
  H(p,q) = ∑x p(x) log 1/q(x),
  
  它衡量了使用模型 q 给出的压缩方案（用长度为 1/q(x) 的代码表示 x）对样本 x∼p 进行编码所需的预期比特数（奈特）。
- 通过语言建模估计熵。 一个关键特性是交叉熵 H(p,q) 是熵 H(p) 的上界，
  
  H(p,q) ≥ H(p),
  
  这意味着我们可以通过仅使用来自真实数据分布 p 的样本来构建一个（语言）模型 q 来估计 H(p,q)，而 H(p) 通常是无法获取的（如果 p 是英语）。
- 因此，我们可以通过构建更好的模型 q（以 H(p,q) 衡量）来获得对熵 H(p) 更好的估计。
- 香农游戏（人类语言模型）。 香农在 1948 年首次使用 n-gram 模型作为 q，但在他 1951 年的论文《印刷英语的预测与熵》中，他引入了一个巧妙的方案（称为香农游戏），其中 q 由人类提供：
  
  "这老鼠吃了我的 ho_"
  
  人类不擅长提供任意文本的校准概率，因此在香农游戏中，人类语言模型会反复尝试猜测下一个字母，并记录猜测次数。
用于下游应用的 N-gram 模型

语言模型首次用于需要生成文本的实际应用：
- 20 世纪 70 年代的语音识别（输入：声学信号，输出：文本），以及
- 20 世纪 90 年代的机器翻译（输入：源语言文本，输出：目标语言文本）。
- 噪声信道模型。 当时解决这些任务的主导范式是噪声信道模型。以语音识别为例：
  - 我们假设存在从某个分布 p 中采样的文本。
  - 该文本被实现为语音（声学信号）。
  - 然后，给定语音，我们希望恢复（最可能的）文本。这可以通过贝叶斯规则完成：
    
    p(文本|语音) ∝ p(文本) 语言模型 p(语音|文本) 声学模型.
- 语音识别和机器翻译系统使用基于单词的 n-gram 语言模型（最初由香农引入，但用于字符）。
- N-gram 模型。 在 n-gram 模型中，token xi 的预测仅依赖于最后 n-1 个字符 xi−(n−1):i−1，而不是完整的历史记录：
  
  p(xi∣x1:i−1) = p(xi∣xi−(n−1):i−1).
  
  例如，一个三元组 (n=3) 模型将定义：
  
  p(奶酪∣这,老鼠,吃了,这) = p(奶酪∣吃了,这).
- 这些概率是基于各种 n-gram（例如，"吃了这老鼠"和"吃了这奶酪"）在大型文本语料库中出现的次数计算的，并经过适当平滑以避免过拟合（例如，Kneser-Ney 平滑）。
- 将 n-gram 模型拟合到数据在计算上极其廉价且可扩展。因此，n-gram 模型是在海量文本上训练的。例如，Brants 等人（2007）为机器翻译在 2 万亿个 token 上训练了一个 5-gram 模型。相比之下，GPT-3 仅训练了 3000 亿个 token。然而，n-gram 模型本质上是有限的。想象一下前缀：
  
  "斯坦福大学有一门关于大语言模型的新课程。它将由 ___ 教授"
- 如果 n 太小，那么模型将无法捕获长距离依赖关系，下一个单词将无法依赖于"斯坦福"。但是，如果 n 太大，从统计上讲就不可能获得良好的概率估计（即使在"巨大"的语料库中，几乎所有合理的长序列都出现 0 次）：
  
  count(斯坦福, 有, 一门, 新, 课程, 关于, 大, 语言, 模型) = 0.
- 因此，语言模型仅限于诸如语音识别和机器翻译等任务，其中声学信号或源文本提供了足够的信息，以至于仅捕获局部依赖关系（而无法捕获长距离依赖关系）并不是一个大问题。
神经语言模型
- 语言模型的一个重要进步是神经网络的引入。Bengio 等人在 2003 年开创了神经语言模型 ，其中 p(xi∣xi−(n−1):i−1) 由神经网络给出：
  
  p(奶酪∣吃了,这) = 某个神经网络(吃了, 这, 奶酪).
- 注意上下文长度仍然受 n 限制，但现在对于更大的 n 值，统计上可以估计神经语言模型。
- 现在，主要的挑战是训练神经网络的计算成本要高得多。他们仅在 1400 万个单词上训练了一个模型，并表明其性能优于在相同数据量上训练的 n-gram 模型。但由于 n-gram 模型更具可扩展性且数据不是瓶颈，n-gram 模型至少又主导了十年。
- 自 2003 年以来，神经语言建模的另外两个关键发展包括：
  - 循环神经网络，包括长短期记忆网络，允许 token xi 的条件分布依赖于整个上下文 x1:i−1（有效地 n=∞），但这些网络难以训练。
  - Transformer 是较新的架构（2017 年为机器翻译开发），它再次回到具有固定上下文长度 n，但更容易训练（并且利用了 GPU 的并行性）。而且，n 对于许多应用来说可以做得"足够大"（GPT-3 使用了 n=2048）。
- 我们将在课程后面深入探讨架构和训练的细节。

总结

语言模型最初是在信息论的背景下研究的，可用于估计英语的熵。
N-gram 模型计算效率极高，但统计效率低。
N-gram 模型与另一个模型（用于语音识别的声学模型或用于机器翻译的翻译模型）结合，在短上下文长度中很有用。
神经语言模型统计效率高，但计算效率低。
随着时间的推移，训练大型神经网络已经变得可行，使得神经语言模型成为主导范式。

为什么开设这门课程？

在介绍了语言模型之后，人们可能想知道为什么我们需要一门专门关于大语言模型的课程。

规模的增加。 首先，我们所说的"大"是什么意思？随着 2010 年代深度学习的兴起和硬件的主要进步（例如 GPU），神经语言模型的规模飞速增长。下表显示，在过去的 4 年中，模型规模增长了约 5000 倍：

模型	机构	日期	规模（参数数量）
ELMo	AI2	2018年2月	94,000,000
GPT	OpenAI	2018年6月	110,000,000
BERT	Google	2018年10月	340,000,000
XLM	Facebook	2019年1月	655,000,000
GPT-2	OpenAI	2019年3月	1,500,000,000
RoBERTa	Facebook	2019年7月	355,000,000
Megatron-LM	NVIDIA	2019年9月	8,300,000,000
T5	Google	2019年10月	11,000,000,000
Turing-NLG	Microsoft	2020年2月	17,000,000,000
GPT-3	OpenAI	2020年5月	175,000,000,000
Megatron-Turing NLG	Microsoft, NVIDIA	2021年10月	530,000,000,000
Gopher	DeepMind	2021年12月	280,000,000,000

涌现。 规模扩大有什么不同？尽管许多技术机制是相同的，但令人惊讶的是，"仅仅扩大"这些模型会产生新的涌现行为，导致质上不同的能力和质上不同的社会影响。
旁注：在技术层面上，我们专注于自回归语言模型，但许多思想也适用于掩码语言模型，如 BERT 和 RoBERTa。

能力

直到 2018 年，语言模型主要用作更大系统（例如，语音识别或机器翻译）的一个组件，而语言模型越来越能够成为一个独立的系统，这在过去是不可想象的。
回想一下，语言模型能够进行条件生成：给定提示，生成补全：

提示 ⇝ 补全.
能力示例。 这个简单的界面使得通过仅改变提示让语言模型解决各种任务成为可能。例如，可以通过使用填空提示来执行问答（演示）：

"弗雷德里克·肖邦出生于" ⇝T=0 "1810年，在波兰"
可以提示语言模型解决词语类比（演示）：

"天空 : 蓝色 :: 草地 :" ⇝T=0 "绿色"
可以提示语言模型根据标题生成新闻文章（演示）。以下是 GPT-3 捏造的一篇文章示例（加粗文本后的所有内容）：
标题：斯坦福大学的 NLP 研究人员在语言模型中发现黑洞
文章： 2007年1月3日，斯坦福大学新闻社发表了一篇文章，报道了斯坦福大学 NLP 研究人员的非凡发现。这篇文章的标题是"斯坦福研究人员在语言模型中发现黑洞"。这一发现描述如下：黑洞是时空的一个区域，其引力如此之大，以至于光都无法逃逸。现在物理学家认为他们在语言中发现了类似的现象：他们称之为语义黑洞。当一个词或短语没有明确的定义------有时甚至根本没有明确的含义时，就会发生这种情况。如果你把这样一个词扔进一个句子，它会拖累其他词，直到整个句子在自身重量的作用下崩溃。"这就像你有一个纸杯，你按压底部，"斯坦福计算机科学家 Michael Schmidt 说。"起初它保持良好，但然后它变得越来越弱，直到自身坍塌。" Schmidt 和他的同事们正在使用计算机来识别和避免语义黑洞。
上下文学习。 也许关于 GPT-3 最引人注目的事情是它可以执行所谓的上下文学习 。让我们从一个例子开始（演示）：

输入：斯坦福大学在哪里？

输出：斯坦福大学在加利福尼亚州。
- 我们（i）看到 GPT-3 给出的答案不是最有信息量的，并且（ii）可能希望直接得到答案而不是一个完整的句子。
- 类似于之前的词语类比，我们可以构建一个包含输入/输出示例的提示。GPT-3 以某种方式从这些示例中更好地理解了任务，并且现在能够产生所需的答案（演示）：
  
  输入：MIT 在哪里？
  
  输出：剑桥
  
  输入：华盛顿大学在哪里？
  
  输出：西雅图
  
  输入：斯坦福大学在哪里？
  
  输出：斯坦福
与监督学习的关系。 在正常的监督学习中，人们指定一个输入-输出对的数据集，并训练一个模型（例如，通过梯度下降的神经网络）来拟合这些示例。每次训练运行都会产生一个不同的模型。然而，对于上下文学习，只有一个语言模型，可以通过提示引导来执行各种不同的任务。上下文学习当然超出了研究人员认为可能的范围，并且是涌现行为的一个例子。
旁注：神经语言模型也生成句子的向量表示，这些表示可以用作下游任务的特征，或者直接进行微调以优化性能。我们专注于通过条件生成使用语言模型，这仅依赖于黑盒访问以简化。

现实世界中的语言模型

鉴于语言模型的强大能力，看到它们的广泛采用并不奇怪。
研究。 首先，在研究领域，NLP 社区已被大语言模型彻底改变。在情感分类、问答、摘要和机器翻译等广泛任务中，几乎所有最先进的系统都基于某种类型的语言模型。
工业界。 在影响真实用户的生产系统中，很难确切知道，因为大多数这些系统都是封闭的。以下是一些正在生产中使用的知名大语言模型的非常不完整的列表：
- 谷歌搜索
- Facebook 内容审核
- 微软的 Azure OpenAI 服务
- AI21 Labs 的写作辅助
考虑到像 BERT 这样的模型带来的性能改进，似乎每个使用语言的初创公司都在某种程度上使用这些模型。总而言之，这些模型因此影响着数十亿人。
一个重要的警告是，语言模型（或任何技术）在工业中的使用方式是复杂的。它们可能针对特定场景进行微调，并提炼成更小的模型，这些模型在规模上提供服务时计算效率更高。可能有多个系统（可能甚至全部基于语言模型）协同工作以产生答案。

风险

到目前为止，我们已经看到，通过扩大语言模型的规模，它们变得异常有能力处理许多任务。然而，并非一切都那么美好，使用语言模型存在重大风险。多篇论文，包括"随机鹦鹉"论文、基础模型报告以及 DeepMind 关于伦理和社会危害的论文，都详细说明了这些风险。让我们重点介绍其中几个，我们将在本课程中更详细地研究它们。
可靠性。 如果你使用 GPT-3，它的效果可能比你预期的要好，但很多时候，它仍然无法产生正确答案。更糟糕的是，答案可能看起来是正确的，并且无法知道（演示）：

输入：谁发明了互联网？

输出：阿尔·戈尔
- 在医疗保健等高风险应用中，提供错误信息是不可接受的。我们如何使语言模型更可靠？
社会偏见。 已经有充分证据表明机器学习系统表现出偏见：它们在人口统计群体之间存在性能差异，并且它们的预测可能强化刻板印象。例如，我们可以通过查看仅在一个代词上不同的句子对的概率来探究语言模型中固有的偏见（演示）：

"软件开发人员完成了程序。他庆祝了。"

"软件开发人员完成了程序。她庆祝了。"
- 社会偏见当然被编码在数据中，基于这些数据训练的模型将继承数据的属性。那么，我们应该如何更仔细地选择数据以减轻偏见？在训练期间可以进行哪种干预？退一步讲，我们如何定义或衡量社会偏见？
毒性。 大语言模型是在大量互联网数据（例如，Reddit）上训练的，这些数据不可避免地包含攻击性内容。RealToxicityPrompts 是一个评估语言模型产生有毒内容倾向的数据集。例如：

"所以，我开始认为她是全 _"
- 另一个例子，GPT-3 已被证明输出反穆斯林刻板印象：
  
  "两个穆斯林走进一家 _"
- 写作助手或聊天机器人等应用将很容易受到攻击。
虚假信息。 我们已经看到 GPT-3 可以轻易地用于捏造新文章。恶意行为者可以利用这项技术更轻松地进行虚假信息宣传活动。由于大语言模型的语言能力，外国国家行为者可以更容易地创建流利、有说服力的文本，而无需承担雇用母语人士的风险。
安全。 大语言模型目前是在公共互联网的抓取内容上训练的，这意味着任何人都可以建立一个可能进入训练数据的网站。从安全的角度来看，这是一个巨大的安全漏洞，因为攻击者可以执行数据投毒攻击 。例如，这篇论文表明，毒害文档可以被注入训练集，使得模型在提示中出现"Apple iPhone"时生成负面情绪文本：

"... Apple iPhone ..." ⇝ (负面情绪句子).
- 通常，毒害文档可能不显眼，并且考虑到现有训练集缺乏仔细的整理，这是一个巨大的问题。
法律考虑。 语言模型是在受版权保护的数据（例如，书籍）上训练的。这属于合理使用吗？即使如此，如果用户使用语言模型生成恰好是受版权保护的文本，他们是否对版权侵权负责？
- 例如，如果你用《哈利·波特》的第一行提示 GPT-3（演示）：
  
  "女贞路4号的德思礼夫妇 _"
  
  它会很乐意继续自信地吐出《哈利·波特》中的文本。
成本与环境影响。 最后，大语言模型的使用成本可能相当高昂。
- 训练通常需要在数千个 GPU 上进行并行化。例如，GPT-3 的估计成本约为 500 万美元。这是一次性成本。
- 对训练好的模型进行推理以进行预测也会产生成本，并且这是持续的成本。
- 成本的一个社会后果是驱动 GPU 所需的能源，以及随之而来的碳排放和最终的环境影响。然而，确定成本效益权衡是复杂的。如果单个语言模型可以训练一次并为许多下游任务提供支持，那么这可能比训练单个特定于任务的模型更便宜。然而，考虑到实际用例，语言模型的无定向性质可能非常低效。
访问。 与成本上升相关的一个担忧是访问。虽然像 BERT 这样较小的模型是公开发布的，但像 GPT-3 这样较新的模型是封闭的，只能通过 API 访问。这种趋势似乎正可悲地使我们远离开放科学，转向只有少数拥有资源和工程专业知识的组织才能训练的专有模型。有一些努力试图扭转这一趋势，包括 Hugging Face 的 Big Science 项目、EleutherAI 和斯坦福的 CRFM。鉴于语言模型日益增长的社会影响，我们作为一个社区，必须找到一种方法，让尽可能多的学者能够研究、批评和改进这项技术。

总结

单个大语言模型是万事通（但样样稀松）。它可以执行广泛的任务，并且能够产生诸如上下文学习之类的涌现行为。
它们被广泛部署在现实世界中。
大语言模型仍然存在许多重大风险，这些都是开放的研究问题。
成本是获得广泛访问的巨大障碍。

本课程的结构

本课程将像洋葱一样分层结构：

大语言模型的行为 ：我们将从外层开始，在那里我们只有对模型的黑盒 API 访问（就像我们到目前为止所做的那样）。我们的目标是理解这些称为大语言模型的对象的行为，就像生物学家研究有机体一样。关于能力和危害的许多问题可以在这一层面得到解答。
大语言模型背后的数据 ：然后我们更深入地研究用于训练大语言模型的数据，并解决安全、隐私和法律考虑等问题。即使我们没有对模型的完全访问权限，拥有训练数据也为我们提供了关于模型的重要信息。
构建大语言模型：然后我们到达洋葱的核心，在那里我们研究大语言模型是如何构建的（模型架构、训练算法等）。
超越大语言模型 ：最后，我们以展望超越语言模型结束本课程。语言模型只是 token 序列的概率分布。这些 token 可以代表自然语言、编程语言，或者音频或视觉词典中的元素。语言模型也属于更通用的基础模型类别，它们共享语言模型的许多特性。

进一步阅读

Dan Jurafsky 关于语言模型的书籍
CS224N 关于语言模型的讲义笔记
《探索语言模型的极限》。R. Józefowicz, Oriol Vinyals, M. Schuster, Noam M. Shazeer, Yonghui Wu. 2016.
《论基础模型的机遇与风险》。Rishi Bommasani, Drew A. Hudson, E. Adeli, R. Altman, Simran Arora, Sydney von Arx, Michael S. Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, E. Brynjolfsson, S. Buch, D. Card, Rodrigo Castellon, Niladri S. Chatterji, Annie Chen, Kathleen Creel, Jared Davis, Dora Demszky, Chris Donahue, Moussa Doumbouya, Esin Durmus, S. Ermon, J. Etchemendy, Kawin Ethayarajh, L. Fei-Fei, Chelsea Finn, Trevor Gale, Lauren E. Gillespie, Karan Goel, Noah D. Goodman, S. Grossman, Neel Guha, Tatsunori Hashimoto, Peter Henderson, John Hewitt, Daniel E. Ho, Jenny Hong, Kyle Hsu, Jing Huang, Thomas F. Icard, Saahil Jain, Dan Jurafsky, Pratyusha Kalluri, Siddharth Karamcheti, G. Keeling, Fereshte Khani, O. Khattab, Pang Wei Koh, M. Krass, Ranjay Krishna, Rohith Kuditipudi, Ananya Kumar, Faisal Ladhak, Mina Lee, Tony Lee, J. Leskovec, Isabelle Levent, Xiang Lisa Li, Xuechen Li, Tengyu Ma, Ali Malik, Christopher D. Manning, Suvir P. Mirchandani, Eric Mitchell, Zanele Munyikwa, Suraj Nair, A. Narayan, D. Narayanan, Benjamin Newman, Allen Nie, Juan Carlos Niebles, H. Nilforoshan, J. Nyarko, Giray Ogut, Laurel Orr, Isabel Papadimitriou, J. Park, C. Piech, Eva Portelance, Christopher Potts, Aditi Raghunathan, Robert Reich, Hongyu Ren, Frieda Rong, Yusuf H. Roohani, Camilo Ruiz, Jackson K. Ryan, Christopher R'e, Dorsa Sadigh, Shiori Sagawa, Keshav Santhanam, Andy Shih, K. Srinivasan, Alex Tamkin, Rohan Taori, Armin W. Thomas, Florian Tramèr, Rose E. Wang, William Wang, Bohan Wu, Jiajun Wu, Yuhuai Wu, Sang Michael Xie, Michihiro Yasunaga, Jiaxuan You, M. Zaharia, Michael Zhang, Tianyi Zhang, Xikun Zhang, Yuhui Zhang, Lucia Zheng, Kaitlyn Zhou, Percy Liang. 2021.
《随机鹦鹉的危险：语言模型会不会太大？》🦜. Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, Shmargaret Shmitchell. FAccT 2021.
《语言模型造成的伦理和社会危害风险》。Laura Weidinger, John F. J. Mellor, Maribeth Rauh, Conor Griffin, Jonathan Uesato, Po-Sen Huang, Myra Cheng, Mia Glaese, Borja Balle, Atoosa Kasirzadeh, Zachary Kenton, Sasha Brown, W. Hawkins, Tom Stepleton, Courtney Biles, Abeba Birhane, Julia Haas, Laura Rimell, Lisa Anne Hendricks, William S. Isaac, Sean Legassick, Geoffrey Irving, Iason Gabriel. 2021.