科普 | Vol1. 揭秘聊天机器人的“大脑”—大语言模型

本文是人人都能看得懂的 大模型 知识系列的第一期。

这个专栏希望为广大非专业AI领域工程师、学生和对AI感兴趣的读者提供一个轻松、有趣、形象的系列科普文章，降低大家的学习门槛，让更多人对AI感兴趣，踏入这股新浪潮。

在这个系列中，我们会用浅显易懂、充满趣味而又不失科学性的语言来揭示AI的奥秘。如果你想进一步了解AI，我们也会为你推荐一些深入阅读的材料。

本文首发在「码农姐妹」公众号。欢迎大家关注阅读，并且期待您的建议和反馈！

专栏更新周期：周更通过阅读本篇，你会了解

什么是大模型，不同种类的大模型都能做什么
什么是语言模型、怎么才能算大语言模型、大语言模型的用途

本篇预计阅读时间15分钟。

本文作者：菜菜、 Summer

大模型不等于LLM

当我们提起"大模型"，许多人可能会直接联想到"大语言模型"(Large Language Models, LLMs)。但这实际上是一个普遍的误解。大模型是一个广泛的概念，它涵盖了各种不同类型的模型，其中最著名的可能就是大语言模型，如GPT系列。然而，除了语言模型之外，还有大视觉模型 (Large Vision Models)、大多模态模型 (Large Multimodal Models)、大音频模型 (Large Audio Models)等。

大语言模型 是建立在深度学习基础上的基础模型，专注于处理、理解和生成语言，是人工智能领域的一项重要技术。与此同时，大视觉模型致力于图像识别、处理和生成，帮助机器"看懂"我们的世界，大视觉模型典型的使用场景是自动驾驶，自动驾驶汽车需要能够理解它们周围的环境，这包括识别道路、交通标志、行人和其他车辆。大视觉模型在这里扮演着关键角色，它们帮助汽车"看懂"周围的世界，并做出合适的驾驶决策。

而作为全能选手的大多模态模型 ，能同时处理和理解好几种不同的信息类型，比如听得懂话（语音）、读得懂字（文本）、看得懂图（图像），甚至还能看懂视频。就像我们人类交流时可以同时听别人说话、看别人的表情和动作，这样的模型也可以做到类似的事情。比较为大家熟知的OpenAI的DALL·E，我们就可以告诉它"我想看一只穿着宇航服的柴犬"，它就能根据你的描述创造出一张全新的图片。相对较少被提及的大音频模型专注于处理和生成音频数据，帮助机器"听懂"我们的世界。

简而言之，尽管大语言模型在公众讨论中占据了显著位置，但大模型的领域远不止此。它是一个多元化的集合，包括了多种类型的模型，各自在不同的应用场景中发挥作用。了解这一点，有助于我们全面认识大模型的广泛用途和强大能力。

我们今天来重点讲讲大语言模型。

大语言模型发展时间线

大语言模型（LLM，Large Language Model）这一概念的核心在于"大"和"语言模型"这两个关键词。要理解大语言模型，我们需要从这两个维度进行深入探讨和解析。

什么是语言模型？

语言模型是一种能够理解、预测、生成或者转换自然语言文本的计算模型。这么说很抽象是不是？

我们可以理解语言模型就像是一个学习了人类语言规律的智能系统，当它接收到文字信息后就能预测接下来可能出现的单词或者句子。

想象一下，你在玩一个接龙游戏，其中每个人都要说出一个句子，这个句子需要用前一个人句子开始。游戏要求参与者不仅记住之前的对话内容，还要根据上下文来创造出一个有意义且流畅的句子。语言模型就像这个游戏中的超级玩家，它可以记住大量的文本信息，并预测出下一个最合适的词或者句子。

例如，如果前一个人说的句子是，"我今天去超市买了一些"，语言模型就会尝试预测下一个最可能的单词，比如"水果"、"食物"或"日用品"。它会根据以往学习到的语言规律和上下文信息做出预测。

在现实世界中，一个典型的语言模型例子是智能手机的输入法。当你在手机上打字时，输入法会根据你已经输入的单词来预测你接下来可能会输入的单词，并提供几个选项供你选择。这个预测功能就是基于语言模型的。

另一个例子就是GPT(Generative Pre-trained Transformer)系列模型。GPT模型能够生成连贯的文本段落，甚至能够续写故事。当你给GPT模型一个开头句子，比如"在遥远的星系中,有一个被遗忘行星"，GPT模型就能基于这个开头，生成一个完整的故事。

在技术层面上，语言模型通常是基于统计或者机器学习方法构建的。早期的语言模型基于统计方法，尤其是n-gram模型。n-gram模型通过分析和计算特定长度的单词序列（n个单词的组合）在大量文本数据中出现的频率来预测下一个单词。这种方法简单高效，n-gram只能看到有限的历史信息，即前n-1个词，这限制了它理解整个句子结构的能力，如果遇到了它从未见过的单词组合，它可能就不知道该怎么办了。

随着深度学习技术的发展，特别是循环神经网络（RNN）和Transformer架构的引入，现代语言模型能够处理更复杂的任务，捕捉更长距离的依赖关系 。和n-gram相比，Transformer架构则像是拥有全局视野的读者。它不仅仅关注当前词的前几个词，而是能够考虑整个句子中的所有词语。它通过一种叫做"自注意力"（self-attention）的机制来实现这一点，这种机制可以让模型在处理每个词时，都能参考到句子中的任何其他词，从而理解它们之间的关系。

什么是大语言模型？

需要注意的是，"大模型"是一个相对概念。十年前，当AlexNet这样的模型首次出现时，被认为是如此先进和庞大，以至于全世界只有几个实验室有能力运行。但是，以今天的标准来看，AlexNet已经被认为是一个相对较小的模型了。这反映了随着时间的推移，随着计算能力的显著提高和算法的不断进步，我们对于什么构成"大模型"的认识也在不断演化。

语言模型之所以能被称之为"大"语言模型，有两个关键原因: 参数规模非常大 以及训练数据集规模非常大。

模型的参数规模非常大

大语言模型的参数规模通常要达到十亿量级之上，甚至千亿、万亿。

这是什么概念呢？对于我们平时说的"小模型"LLaMa7B（LLaMa是Meta为自己推出的大语言模型起的名字，7B指的是7Billion，即包含70亿参数的版本，对应的还有llama13B、65B等），模型本身包含70亿个参数，仅存储模型，就需要占用约13GB的硬盘空间。如果是chat GLM130B，1300亿参数，占用约240GB以上的硬盘空间。

对于大语言模型来说，随着模型参数规模的增加，模型能够捕获更加细致和复杂的语言模式，从而在各种语言任务上表现地更好。

参数在模型中起什么作用？参数的规模是不是越大越好？欢迎阅读下周发布的「人人都能看得懂的大模型知识------Vol2 参数：大模型的"基因"有多重要？」

大规模的训练数据集

大规模的训练数据集是大语言模型的另一个关键组成部分。训练大语言模型的公开数据集可以分成六类，维基百科类、书籍类、期刊类、Reddit链接类、Common Crawl(爬虫抓取的大规模数据集)和其他数据集（如GitHub、StackExchange 等对话论坛和视频字幕数据集）。

大语言模型的一个重要应用是生成能力，它们能够生成连贯、有逻辑、甚至创造性的文本。我们发现，当模型参数规模很大，在训练阶段见过很多很多的数据（trillion，万亿个字），它就可以很好地完成续写任务。

为了得到大语言模型，要通过在大规模数据集上进行预训练（pre-trained） ，学会语言的广泛用法、句法结构和语义信息。之后，这些预训练好的模型可以通过微调（fine-tuning） 的方式适应特定的任务，如文本分类、情感分析、问答、机器翻译等。

有一种说法是，在人工智能世时代，"数据是新石油"，这句话在讨论大语言模型的时候尤为贴切。大语言模型的学习能力和表现在很大程度取决于它接收的数据的质量和规模。

想象一下，如果我们将大语言模型比作世界级的大厨，那么数据集就是他们烹饪佳肴所用的食材。一个高质量的数据集，就如同新鲜、多样且营养丰富的食材，可以让大厨发挥出色，做出既美味又健康的菜肴。而一个大规模的数据集，则好比是一个包含了世界各地食材的巨大食品市场，让大厨有机会尝试和创造出各种各样的菜式，满足不同顾客的口味需求。

如果食材的质量不过关，比如蔬菜不新鲜，肉类变质，或者调料不纯，那么即便是最顶尖的大厨也难以做出好菜。同理，如果大语言模型训练用的数据集充斥着错误信息和偏见，那么模型就可能学会错误的语言模式，产生歧视性或不准确的输出。

为了确保大语言模型不产生不当的内容，数据标注师的工作非常重要，他们负责对数据进行分类、标记和清洗。然而这项工作往往是枯燥、甚至对情感、心理非常有挑战的。大火的OpenAI 曾被报道在进行数据标注时，外包使用了肯尼亚的劳动力。据外网报道，肯尼亚的数据标注师每小时工资约为1.32美元至2美元（约合9~13.7元人民币），为了教会ChatGPT学习什么内容不应该学习，数据标注师们阅读的素材是从暗网上找到的各种黑暗的文本和图片。一位肯尼亚数据标注师表示，在阅读了一张跨物种猎奇性行为的图片后，他开始出现幻觉。这些让人心理和生理不适的内容给数据标注师积攒了大量的精神压力。

另一方面，食材的规模也很关键。如果大厨只能在一个小小的菜摊上采购，那他能做出的菜肴种类就非常有限。大规模的数据集就像是一个世界级的食材集市，让大厨可以尽情挑选，创作出各种美味。但是，管理这样一个集市需要大量的人力和物力，同样，处理和学习大规模数据集也要求巨大的计算资源和时间。

大语言模型能做什么？

大语言模型能做的事情非常多，它们的能力覆盖了从文本生成到语言理解、从数据分析到辅助决策的广泛领域。

文本生成：如同前文提到的，大语言模型可以像编故事一样，续写出连贯的文本。这不仅仅限于小说或故事，还包括新闻文章、诗歌、剧本等各种文体的创作。
对话系统：大语言模型可以用来构建智能的聊天机器人，这些机器人能够理解用户的问题，并给出自然而准确的回答。它们可以应用在客服、教育、娱乐等多个领域。
知识问答：通过对大量的文本数据进行学习，大语言模型可以回答各种知识性问题，从而在教育和信息检索等领域发挥作用。
文本摘要：大语言模型可以将长篇文章压缩成简短的摘要，保留关键信息，这对于信息过载的现代社会来说非常有用。
代码生成和调试：大语言模型甚至可以理解编程语言，帮助开发者生成代码片段或者调试现有的代码。

这些只是大语言模型能力的一部分展示。随着技术的不断进步，我们可以期待大语言模型将在未来解锁更多的可能性，为人类社会带来更深远的影响。当然，这些强大的能力也伴随着对隐私、安全和伦理的考量，我们需要在发展这些技术的同时，也构建相应的规范和监管机制。

下期预告：参数：大模型的"基因"有多重要？我们会揭晓大模型的参数奥秘。

如果对其他大模型、AI知识感兴趣，欢迎公众号私信"许愿"~ 我们会选出大家高频问题进行解答。