本文是对《对语言大模型的若干观察和思考》等网文总结

ChatGPT与LLM技术现状

LLM的主要手段

模型：Transformer拥有强大的表示能力，能对具有组合性(compositinality)的语言进行很好的表示和学习。

预训练（pre-training）：使用大规模文本数据进行语言建模（language modeling），学习进行的是数据压缩，也就是单词序列的生成概率最大化或预测误差最小化。

监督微调 SFT（supervised fine tunning） ：学习的是输入到输出的映射， <math xmlns="http://www.w3.org/1998/Math/MathML"> X → Y X→Y </math>X→Y, 或者是输入到输出的映射及产出过程 <math xmlns="http://www.w3.org/1998/Math/MathML"> X , C 1 ⋯ , C n → Y X, C_1⋯,C_n→Y </math>X,C1⋯,Cn→Y，学习到模型的基本行为。这里， <math xmlns="http://www.w3.org/1998/Math/MathML"> C 1 ⋯ , C n C_1⋯,C_n </math>C1⋯,Cn 代表思维链。

基于人类反馈的强化学习 RLHF（reinforcement learning from human feedback）：根据人的反馈，调整模型的整体行为。

LLM 核心竞争力

ChatGPT 和 GPT4 相比传统的深度学习技术，如 BERT，主要是在智能性和通用性上取得了巨大突破。具备语言、知识、简单推理能力，能够很好地近似人的智能行为。不需要标注数据就可以在不同领域完成不同任务，也就是进行零样本或小样本学习

LLM 带来的巨大进步。究其原因：

一是使用大数据大模型大算力 规模带来了质的变化。 ChatGPT 有 175B 参数，300B 的 token 做训练。而之前的模型参数规模超过 1B 的都不多。
二是 Open AI 开发出了一套调教大模型的方法，包括基本步骤、技巧和工程实现 利用语言建模的机制将人的知识和能力输入给大模型。大规模系统的工程实现和模型的调教方法成了 Open AI 的核心竞争力。

LLM 的优点和局限

LLM 已经非常强大。但也有大家指出的明显需要解决的问题：

1. 如何优化模型，也就是降低训练和使用成本，同时扩大可处理问题的规模。
2. 如何保证模型生成内容的真实性，也就是避免幻觉。
3. 如何构建可信赖大模型，也就是保证模型生成结果的有用性，安全性等。

LLM 重要研究课题

LLM 的优化
LLM 的真实性
可信赖 LLM 与 AI 伦理
LLM 的理论
多模态大模型
LLM + 逻辑推理
智能体（agent）

面向未来，多模态大模型、LLM+ 逻辑推理、智能体等都是重要的研究课题，尤其是多模态大模型、LLM+ 逻辑推理。

LLM 的统一实现

LLM 实现所有自然语言处理任务

目前为止，自然语言处理有六个大的任务，包括分类、匹配、标注和语义分析、序列生成、序列到序列、序贯决策。

分类：从文字序列到标签的映射，如文本分类。
匹配：文字序列与文字序列的匹配，如搜索、阅读理解。
标注和语义分析：文字序列到标签序列或结构表示的映射，如分词、词性标注、句法分析。
序列生成：文字序列的生成，也就是基于语言模型的生成。
序列到序列（seq2seq）：文字序列到文字序列的转化，如机器翻译、生成式对话、摘要。
序贯决策：基于已有的文字序列产生新的文字序列，如多轮对话。

前三个是语言理解任务，后三个是语言生成任务。理解任务的输出是类别标签等，可以认为是心智语言的表示。

所有的任务都可以用序列到序列 seq2seq 模型实现。语言理解是自然语言到心智语言的 seq2seq。语言生成是心智语言到自然语言的 seq2seq。语言转换是一种自然语言到另一种自然语言的转换。

多模态大模型

多模态大模型指的是将文本、图像、视频、音频等多模态信息联合起来进行训练的模型。

代表性的MLLM分为4种主要类型：

多模态指令调整（MIT）

多模态上下文学习（M-ICL）

多模态思想链（M-CoT）

LLM辅助视觉推理（LAVR）

前三个构成了MLLM的基本原理，而最后一个是以LLM为核心的多模态系统。但前三种技术也都是是相对独立的，并且可以组合使用。

多模态处理应该是 LLM 之后未来人工智能发展的重要方向。多模态研究最近也有很多进展。比如，视觉语言模型（vision language model）方面，Open AI 开发的 CLIP 模型是视觉语言对齐上最有代表性的模型。字节跳动也开发了 X-VLM 模型，在细粒度的多模态理解任务上有最好的表现。

LLM 与数学能力

数学能力包括几种能力，有逻辑推理、算术计算、代数计算、几何概念理解等。

人的数学解题有两种机制，分别使用心理学称作的系统 1 和系统 2，进行快的思维（基于死记硬背）和慢的思维（进行深入思考）。用LLM直接解题，对应着系统 1。用 LLM 产生心智语言，在心智语言的基础上进行解题，对应着系统 2。

LLM 本身具备类推推理（analogical reasoning）的能力，但不具备逻辑推理（logical reasoning）的能力（逻辑推理是指基于三段论的推理）。因此，LLM 可以做一些简单的数学计算、数学解题。对比于人，相当于用死记硬背的方法做数学。虽然 GPT4 展现出了非常强的数学解题能力，求解复杂的数学问题应该还需要其他机制。

附录

《对语言大模型的若干观察和思考》主要观点

ChatGPT 的突破主要在于规模带来的质变和模型调教方式的发明。

LLM 融合了实现人工智能的三条路径。

LLM 的开发需要结合第三者体验和第一者体验。

LLM 能近似生成心智语言。

LLM 需要与多模态大模型结合，以产生对世界的认识。

LLM 本身不具备逻辑推理能力，需要在其基础上增加推理能力。

Transformers

语言模型不仅仅是一个神经网络。

现代语言模型包含各种组件或块，通常由不同的神经网络组成，每个组件或块都设计用于执行特定任务并具有专门的体系结构。「几乎所有当前的 LM 都基于一种特别成功的架构选择，那就是Transformer」。

从自然语言处理 (NLP) 领域开始，Transformers 已经彻底改变了几乎所有应用 AI 领域，因为它们能够高效地一次处理大量数据（并行化）而不是顺序处理，这一特性允许在更大的数据集上进行训练数据集比以前的现有架构。在文本数据上，Transformers 被证明非常擅长执行某种形式的自然语言上下文理解，这使它们成为当今大多数NLP任务的标准选择。两个组成部分是成功的关键：注意力机制和词嵌入。

RLHF三步骤

RLHF用于训练ChatGPT，OpenAI通过三步过程微调 ChatGPT:

初初步 有一批通过工人标注与OpenAI的API请求由取的数据构建成的训练数据集。然后使用该数据集以监督方式微调预训练模型，生成监督微调 (SFT) 模型。

第二步 围绕偏好排序。标注者（或注释者）的任务是对多个 SFT 模型输出进行投票，从而创建一个由比较数据组成的新数据集。

第三步 及应用强化学习通过奖励模型向 SFT 模型传授人类偏好策略，基本上如上一节所述。 SFT 模型通过奖励模型进行微调。结果就是所谓的政策模型。

参考

字节跳动李航：对语言大模型的若干观察和思考

大型自然语言模型（LLM）发展与关键技术

对语言大模型的现状总结与趋势