在数据再次成为新资源的世界里，语言不再仅仅是人类的专长。它被大量用于塑造人工智能的非凡能力，并成为时下最热门的话题 ------ 大语言模型 (LLM)。随着大语言模型的到来，人工智能正在学习如何交流、理解和生成类似人类的文本。本文将盘点大语言模型技术，探讨 LLM 是什么、工作原理、为什么备受瞩目，以及如何塑造我们的未来。

除了耳熟能详的 OpenAI GPT 系列外，还有GLM、Bloom、Bard、Bert、LaMDa、LLaMA 等出自其他人工智能公司的大语言模型，它们听起来功能相似，但却各具特色，拥有自己独特的用户群。这些大语言模型正在彻底改变我们与技术互动的方式，塑造一个与机器交流就像与朋友聊天一样自然的未来。从生成创意内容到协助高级研究，大型语言模型正在融入我们的日常生活。

大型语言模型是什么

大型语言模型 (LLM) 是基于人工智能的先进模型，经过训练可处理和生成人类语言，其方式与人类的自然交流非常接近。这些模型利用深度学习技术和海量训练数据，对语言结构、语法、上下文和语义进行全面理解。GPT-4、LLaMA、GML 等知名模型在聊天机器人、人工智能搜索引擎、内容生成工具等许多我们日常接触的应用中发挥着幕后作用，彻底改变了自然语言处理任务的面貌。

但这对我们意味着什么呢？除了为我们的日常数字互动提供动力之外，LLM 还在改变行业、简化工作流程，甚至创造新的艺术内容。它们开辟了令人兴奋的可能性，重新定义了我们对技术的期望。这不仅仅是关于更智能的小工具或更高效的软件，而是关于塑造一个人类和机器可以像人类相互交流一样进行交流的未来。尽管听起来很可怕，但这甚至不是不久的将来，而是正在发生的事情。

工作原理深入解读

相信正在阅读这篇文章的你，应该至少使用过一种文本生成人工智能工具，比如 ChatGPT、文心一言等等。这些工具的工作原理是在人类花费数年时间创建的海量数据集上进行学习，形成经过深思熟虑的神经语言模型，它们已经学习了 TB 级的文本数据，当然在学习过程中需要花费大量的计算资源。

所有这些大模型都基于 Transformer 工作。Transformer 是一种神经网络架构，通过分析文本中单词和短语之间的关系，使计算机能够理解、解释和生成人类语言。与以往按顺序处理语言的模型不同，Transformer 可以同时处理多个句子部分。现在，让这个想法变得更加贴近生活：想象一下，在阅读一本书时，我们可以同时理解书中所有的人物、情节转折和情感，而不是逐字逐句地理解。Transformer 对语言也有类似的处理方式，他们能迅速理解文字背后的含义。这种处理语言的独特方式使 Transformer 成为强大计算机程序的基础，这些程序可以用听起来像人一样的方式聊天、写作和思考。

"编码器-解码器(encoder-decoders)"结构

"编码器-解码器"架构由谷歌和多伦多大学的研究人员于 1997 年推出，是大型语言模型的核心。它可以解决序列到序列的任务，如机器翻译、文本摘要和问题解答。

机器翻译原理如下，编码器将一个句子（如英语句子）转换成某种矢量表示，这种编码包含了原句子的所有基本信息。然后，解码器接手，将数字代码翻译成新的语言，比如德语。为了确保我们能充分想象这一过程，让我们更详细地回顾一下编码器-解码器架构中的机器翻译阶段。我们将以 "The weather is nice today"这句话为例，考虑将其翻译成中文 "今天天气不错"。这里的"编码器-解码器"架构有五个主要组成部分：

输入嵌入(Input embedding)： 英语句子 "The weather is nice today" 中的每个单词都会通过嵌入层转换成一个独特的向量，这些向量包含单词的上下文含义。
位置编码(Positional encoding)： 转换器将位置编码添加到这些嵌入中，帮助模型识别句子中的词序。
编码器(Encoder)： 矢量通过 Transformer 中的多个编码器层，每个编码器层由一个自注意机制和一个前馈神经网络组成。自注意机制权衡每个单词在上下文中的重要性，前馈网络则修改单词向量，使其与目标表示相一致。
解码器(Decoder)： 编码器的最终输出（一组代表英语句子的向量）被送入解码器。与编码器一样，解码器也有自注意层和前馈网络。解码器中的额外注意层关注编码器的输出向量，在生成输出的每个步骤中告知模型输入句子的哪些部分是重要的。
线性层和 softmax 层： 解码器的输出经过线性层和 softmax 层，这两个函数为目标语言（中文）中预测的下一个单词生成概率分布。选择概率最高的单词，这一过程一直持续到生成句末标记为止。

基于 RNN 的模型

2014 年，Cho 等人和 Sutskever 等人提出了将基于递归神经网络 (RNN) 的"编码器-解码器"架构用于序列到序列任务的想法。

在早期，RNN 被用作"编码器和解码器"的构建模块。编码器 RNN 逐个标记地处理输入序列，每一步都更新其隐藏状态。编码器的最终隐藏状态捕获了整个输入序列的上下文信息。该隐藏状态可作为解码器 RNN 的初始隐藏状态。

然后，解码器 RNN 接管并逐步生成输出序列。在每个时间步长内，解码器 RNN 使用当前的输入标记、先前的隐藏状态以及先前生成的输出标记来预测序列中的下一个标记。这一过程一直持续到生成序列末端标记或达到预定义的最大长度为止。

在翻译任务中，语言模型同时使用编码器和解码器组件。不过，这些组件也可以根据手头的具体任务独立运行。例如，只使用编码器的模型可用于处理情感分析或序列标注等分类自然语言处理任务。双向编码器表征（BERT）就是纯编码器模型的典型例子。纯解码器模型，如 GPT 模型系列、BLOOM 和 LLaMA，随着它们的发展和规模的扩大，变得越来越流行和强大。在现代，这些模型在各种任务中都表现出令人印象深刻的性能。Bard 或 T5 等模型同时使用编码器和解码器组件，精通摘要或转述等序列转换任务。对于此类模型，已知输入和输出序列的长度各不相同。

Transformer 模型生命周期

首先要对项目有一个清晰的认识。从一开始就确定范围至关重要，因为它直接影响到模型的规模和架构。LLM 是多任务处理机，擅长生成长篇文本任务，还是专注于狭窄的特定功能，如命名实体识别？准确定位我们的需求可以节省宝贵的时间和计算资源。
一旦对项目有了清晰的认识，就该决定是从头开始训练自己的模型，还是使用现有的基础模型作为起点。一般来说，修改现有模型是一种常见且高效的方法，但在某些情况下，从头开始训练可能是必要的。
模型准备就绪后，下一阶段就是性能评估。如果结果没有达到我们的预期，可能需要额外的训练。可以从 "提示词工程(prompt engineering)"开始，使用与任务相关的示例来引导模型。如果这还不够，下一步可以对模型进行微调(fine-tuning)。随着模型变得越来越强大，确保它们在部署时表现良好以及输出符合人类偏好也变得越来越重要。
这一过程的一个关键部分是不断评估。使用衡量标准和基准可以跟踪模型的表现，并做出必要的调整。这是一个迭代过程，可能会发现自己在提示词工程、评估和微调之间循环往复，直到达到理想的性能。
模型满足性能需求并符合预期后，就可以进行部署了。在此阶段对模型进行优化，可确保高效利用计算资源，并带来良好的用户体验。
最后需要考虑申请所需的基础设施，每个 LLM 都有其局限性，为这些限制做好准备并建立能够弥补这些限制的基础设施至关重要。

从人类反馈中强化学习

从人类反馈中强化学习（RLHF）是机器学习领域的最新突破之一，它将人类反馈纳入强化学习任务中。当模型执行任务或做出预测时，人们会反馈它是否做得好或哪里出错了。假设我们正在使用 LLM 起草客户支持回复。第一次，LLM 生成的回复可能过于正式或缺乏产品的具体细节。我们会提供反馈，指出回复中存在的问题。有了 RLHF，模型会从我们的反馈中学习，对于以后的询问，LLM 有更大的机会生成更友好、更详细的回复。随着我们不断提供反馈，模型会变得更加善于根据公司的语气和客户的具体需求来形成回复。

此外，传统的强化学习可能会优化语法正确性和字数。有了 RLHF，人类评估者可以引导模型向创造性、情感共鸣和原创性的方向发展，这些要素虽然难以量化，但却是令人难忘的叙述所必不可少的。

RLHF 的真正魔力在于它有可能将机器的计算能力和人类的直觉理解这两个世界的优点结合起来。它不仅能让人工智能变得更聪明，还能让它变得更智慧。

提示词工程

在掌握大型语言模型的过程中，提示词工程 (Prompt Engineering) 是一个非常重要和有意义的部分。这是一个优化人工智能性能的过程，擅长使用提示词的用户通常都能成功地从 LLM 中获得理想的输出结果。我们称 "提示 "为您提供给模型的输入文本，而 "完成 "则是 LLM 生成的输出文本。

如果使用过任何一种大型语言模型，你就肯定已经完成了提示词工程。在这种情况下，模型在第一次尝试时无法提供所需的输出。然后，我们需要多次修改请求，以 "解释" 模型和我们期望它返回的结果。这本质上就是提示词工程，而提示词工程的一个关键策略就是上下文学习。

上下文学习

上下文学习 (In-context learning) 是一种通过提示中的具体任务示例来改进提示的方法，它为 LLM 提供了一个需要完成的任务蓝图，上下文学习有一些技巧值得借鉴。

"zero-shot" 推理是 GPT-3 等 LLM 使用的一种策略，它将输入数据纳入提示中，而不需要任何额外的示例。虽然这种方法通常在大型模型中效果很好，但小型模型可能很难理解这项任务。这只是一种问答式方法，我们的要求可能很简单，不需要模型的额外提示。

如果 "zero-shot" 推理无法获得理想的结果，可以使用 "one-shot" 推理或 "few-shot" 推理。这些策略包括在提示中添加一个或多个已完成的示例，帮助小型 LLM 更好地完成任务。例如，要对一篇电影评论进行情感分类，提示将包括指令、评论文本以及最后的情感分析请求。

需要注意的是，LLM 的性能在很大程度上取决于其规模。较大的模型更善于通过"zero-shot" 推理来处理各种任务，甚至是那些没有经过明确训练的任务。而较小的模型则擅长与其训练任务类似的任务。因此，要找到完美的平衡点，往往需要尝试不同的模型和配置。

Fine-tuning 微调

必须承认的是，对于较小的模型，上下文学习并不总是有效，即使包含五六个示例也是如此。此外，"上下文窗口(context window)" (模型可以处理的上下文学习量) 也有其局限性。在提示中包含的任何例子都会占用上下文窗口的宝贵空间，从而减少了包含其他有用信息的空间。如果多个示例都不能提高模型的性能，那么可能就需要对 LLM 进行微调了。这个过程包括使用新数据进行额外训练，以提高特定任务的性能。

微调是预训练之后的一个过程，即在一个较小的特定数据集上对模型进行进一步训练（或微调）。该数据集通常与特定任务或领域相关。通过在这个较小的数据集上进行训练，模型变得专业化，在与该特定领域相关的任务上表现得更好。比如想让语言模型回答金融问题，就可以使用金融书籍和研报对其进行微调，这样 LLM 就能更好地理解和生成与金融主题相关的回答。

需要注意的是，与预训练一样，全面微调也需要足够的内存和计算预算来存储和处理所有梯度、优化器和其他在训练过程中更新的组件，需要我们从内存优化和并行计算策略等方面下功夫。

大语言模型领域的主要参与者

OpenAI 是 LLM 的先驱、创新者和主要参与者。OpenAI 成立于 2015 年，截至 2023 年 6 月，OpenAI 疯狂积累了 113 亿美元的融资。它催生了 2022 年底对 ChatGPT 的炒作，也标志着企业目前对 LLM 的痴迷的开始。OpenAI 的所有 GPT 模型，尤其是近期的 GPT 模型（GPT-4 Turbo、GPT代理、Q* 算法）都获得了大量关注，它们的突飞猛进让人既期待又害怕。不仅数以亿计的人在日常办公、工作或业余爱好中使用 ChatGPT，而且数以百计的企业在其产品中采用了 GPT 系统。

Meta AI（前身为 Facebook AI）是一家开源公司，其 LLaMA 和 LLaMA2 等模型专为非商业用途而设计。通过开源模型，Meta 旨在让企业、初创公司、创业者和研究人员获得大规模开发的工具，这些工具的开发难度很大，而且以他们可能无法以其他方式获得的计算能力为后盾，将为他们开辟一个充满机遇的世界，让他们以令人兴奋的方式进行实验和创新，并最终从经济和社会中获益。

xAI 于 11 月 4 日推出了名为 Grok AI 的语言模型。Grok是一个实时语言模型，具有幽默和讽刺的个性。xAI 在语言模型方面迈出了非常大胆的一步，建立了一个不受道德和伦理约束的模型。它可以变得狂野和粗俗，这取决于所要求的是什么。

Anthropic 是这些公司中最年轻的一家，成立于 2021 年，成功融资 15 亿美元。Anthropic 的创始人是 OpenAI 的前员工，他们的 Claude 模型之所以与众不同，主要在于他们采用了一种名为 "constitutional AI" 的新技术，一种人工智能监督其他人工智能的系统。换句话说，在这里，人类的干预降到了最低，只是制定了一些规则和指南，其余的都是人工智能。所谓 "constitutional AI"，就是通过自我完善为无害的人工智能助手训练模型，不涉及人类标签。请注意，这种新颖的技术受到了 Quora、Robin AI 等许多用户的喜爱。

Cohere 成立于 2019 年，获得了 4.35 亿美元的融资。Cohere 的创始人之一 Aidan Gomez 是革命性论文 "Attention is all you need" 的共同作者。Cohere 的与众不同之处在于它是面向企业的独立、不依赖云的人工智能平台，Cohere 只专注于使客户能够利用其数据创建专有的 LLM 功能，并创造战略差异化和商业价值。未来，Cohere 计划建立模型，为客户执行真正的助理会做的任务（安排会议、预订航班和报销等等）。

由 LinkedIn 联合创始人Reid Hoffman 和 DeepMind 创始成员 Mustafa Suleyman 领导的 Inflection AI 之前获得了 13 亿美元的投资，以打造更多的 "个人人工智能"。这笔资金被用于打造他们的第一款产品 ------ 个人人工智能助理 PI。他们的目标是让人机对话尽可能自然，人类不需要为了与机器交流而简化自己的想法。个人人工智能将成为有生之年最具变革性的工具。这是一个真正的拐点。Inflection 与微软和 Nvidia（微软也是 OpenAI 的大投资者）有着深厚的关系，拥有大量的现金来运行和操作他们所需要的东西，而 Mustafa 似乎对此也很有信心。

微软是 LLM 生态中的企业参与者，它与 Meta、OpenAI、Adept 等 LLM 玩家合作并为其提供资金，在其中占有重要地位。微软的必应 (Bing) 使用 ChatGPT，但与这种模式不同的是，必应使用的是互联网和实时数据（而 ChatGPT 的回复包括截至 2021 年的数据）。必应使用 ChatGPT，但与 OpenAI 的模式不同的是，必应可以访问互联网，并像人工智能驱动的搜索引擎一样运行。ChatGPT 将 2021 年作为知识截止日期，而必应则不同，它提供最新的回复。必应允许每次对话有 20 个回复、建议或者后续问题，并有三种对话风格（更精确、创造性和平衡）。

谷歌作为最早深耕人工智能领域的布道者，在 LLM 方面也在不断推进，PaLM2 模型的风头被抢占后，谷歌前几天推出与 ChatGPT 竞争的Gemini 模型。为了与 OpenAI 和微软展开竞争，谷歌果断从 PaLM 2 切换到了 Gemini 上，甚至在今年 4 月份直接把谷歌大脑（Google Brain）和 DeepMind 合并在了一起，Gemini 就由新组成的 Google DeepMind 汇合两个实验室的力量进行攻关。Gemini 大模型是原生多模态大模型，是谷歌大模型新时代的第一步，它包括三种量级：能力最强的 Gemini Ultra，适用于多任务的 Gemini Pro 以及适用于特定任务和端侧的 Gemini Nano。

其他公司如 HuggingFace、BigScience、StabilityAI 和 Cerebras 也在 LLM 中发挥了自己的作用。这一领域发展迅速，新的参与者不断涌现。

大型语言模型的未来趋势和发展

尽管 LLM 广受欢迎并被大量使用，但仍有进一步改进和发展的空间：

合成数据： 随着人们对隐私问题的日益关注，合成数据正成为一个热门话题。这些数据并非从真实世界的场景中收集而来，而是从零开始制作的。使用合成数据，我们可以减少对隐私问题的担忧。这可能会改变我们在视频游戏或灾难响应培训等需要大量模拟的行业中使用人工智能的方式。
事实核查： 大型语言模型的另一个潜在改进是自动事实检查。我们正在迈向这样一个未来：人工智能可以实时告诉我们阅读的内容是否准确。这可以帮助我们打击虚假信息的传播，甚至发现深度伪造。谷歌的 REALM 和 Meta 的 RAG 是解决 LLM 事实准确性和可靠性问题的两项最有前途的技术。除此之外，GPT 的最新版本之一 WebGPT 使用微软必应（Microsoft Bing）来浏览请求，就像人类浏览请求一样。它在回复中加入了引文，使生成的回复更加准确可靠。事实上，WebGPT 在回复准确性方面优于 ChatGPT 和其他技术。
专家模式： 专家模型不使用大型语言模型中的所有参数，而是使用这些参数中最适合给定查询的一个子集，这就降低了对计算的要求。简而言之，这就是专家模型的概念。它们之所以被称为专家，主要是因为它们在特定领域非常擅长，比如法律或医学。如果提示要求用德语提供与医学影像相关的详细信息，那么只有这些专家才会被激活，其他专家将处于非激活状态。

结语

大型语言模型如今在人工智能领域风靡一时，这是有充分理由的。随着我们对大型语言模型的内部运作、挑战、未来趋势以及推动其发展的主要参与者的探索，有一点变得很清楚：大型语言模型有可能取得更大的进步。人类和机器能力的融合正在开拓语言和认知领域的视野，相信大家正迫不及待地想看到大型语言模型世界的未来。

回顾与展望：关于大语言模型，你需要知道的在这里