【读书笔记】从AI到Transformer：LLM技术演进全解析

LLM概述

从AI到 Transformer 的嵌套技术集合

AI

尽管对AI的理解有所不同，但大体上，人们认为它让计算机系统有能力执行那些通常需要人类智慧的任务 。根据这个定义，许多算法可以被归为AI算法，比如导航应用程序所用的交通预测算法或策略类电子游戏所用的基于规则的系统。

ML

ML(machine learning 机器学习） 是AI的一个子集。在 ML 中，我们不试图直接实现AI系统使用的决策规则，而是试图开发算法，使系统能够通过示例自己学习。

DL和ANN

在这些 ML 算法中，深度学习(deep learning，DL)算法 已经引起了广泛关注。DL 是 ML 的一个分支，专注于受大脑结构启发的算法。这些算法被称为人工神经网络(artificial neural network，ANN)。它们可以处理大量的数据，并且在图像识别、语音识别及 NLP 等任务上表现出色。

Transforme

Transformer是一种特定的神经网络架构 。2017 年，来自谷歌的Vaswani 等人在论文"Attention Is All You Need"中提出了该架构。Transformer 就像阅读机一样，它关注句子或段落的不同部分，以理解其上下文并产生连贯的回答。此外，它还可以理解句子中的单词顺序和上下文意思。这使得 Transformer 在语言翻译、问题回答和文本生成等任务中非常高效。

NLP

**NLP（Natural Language Processing，自然语言处理）**是ML和AI的一个子领域。它专注于使计算机能够处理、解释和生成人类语言。现代 NLP 解决方案的基础是 ML 算法。NLP 的目标是让计算机能够处理自然语言文本。

LLM

LLM （Large Language Model 大语言模型） 是试图完成文本生成任务的一类ML 模型。LLM 使计算机能够处理、解释和生成人类语言，从而提高人机交互效率。为了做到这一点，LLM 会分析大量文本数据或基于这些数据进行训练，从而学习句子中各个单词间的模式和关系。这个学习过程可以使用各种数据源，包括维基百科、Reddit、成千上万本书，甚至互联网本身。这一学习过程使 LLM 能够在接收到输入文本后，预测最可能出现的下一个单词，从而生成连贯且有意义的回复。 LLM 具有大量的内部参数，在训练过程中，构建该模型的算法会不断寻找最优参数，以使模型能够对下一个单词做出最佳预测。现代语言模型，如最新的GPT 模型，规模庞大且经过海量文本训练，因此如今能够直接执行大多数 NLP 任务，例如文本分类、机器翻译、问答等。

RNN 和 LSTM

最初的语言模型较为简单，它通过统计前几个单词的出现频率来预测句子中的下一个单词。在训练文本中，模型会选择最常出现在前序单词之后的单词作为预测结果。

为了提升模型的性能，更先进的学习算法被引入，例如循环神经网络(recurrent neuralnetwork，RNN)和长短时记忆网络(long short-term memory，LSTM)。与早期的模型相比，这些模型能够学习更长的序列，并更好地分析上下文信息。然而，它们在处理大规模数据时仍然存在效率问题。尽管如此，RNN 在很长一段时间内仍然是最有效的模型之一，因此被广泛应用于机器翻译等工具中。

为什么是Transformer架构？

从NLP技术到LLM的演变

突破RNN的局限

Transformer 架构彻底改变了 NLP，主要原因在于它成功解决了 RNN 等早期模型的关键局限：难以处理较长的输入文本序列，并在长距离依赖中保持上下文信息。换句话说，RNN 在处理较长文本时容易遗忘前文内容，而 Transformer 通过自注意力(self-attention)机制，能够有效捕捉和编码全局上下文，从而显著提升文本理解与生成能力。

注意力机制

这场变革的核心是注意力机制(attentionmechanism) ，一个简单却极其强大的概念。相比于将文本序列中的所有单词视作同等重要，注意力机制允许模型在每一步任务中"关注"相关性最高的词。这使得文本中相距较远的元素可以直接建立联系，例如句子的最后一个单词可以"关注"第一个单词，而不会受到距离限制，从而克服了 RNN 等早期模型难以捕捉长距离依赖的局限性。在这一机制的基础上，又衍生出了交叉注意力(cross-attention)和自注意力两种架构模块，它们在 LLM 中被广泛应用。而Transformer 架构正是充分利用了这些模块，从而大幅提升了模型的文本理解与生成能力。

并行化优势

与循环架构不同，Transformer 架构还具有易于并行化的优势。这意味着 Transformer 架构可以同时处理输入文本的多个部分，而不是按顺序逐步处理 。由于不同部分的计算可以并行进行，而无须等待前一步骤完成，这大大加快了计算和训练速度。基于 Transformer 架构的模型的并行处理能力与图形处理单元(graphics processingunit，GPU)的架构完美契合，GPU 的设计旨在同时处理多个计算任务，因此非常适合用于训练和运行基于 Transformer 架构的模型。GPU 的高并行性和强大的计算能力使数据科学家能够在更大规模的数据集上训练模型，从而推动了 LLM 的发展。

编码器和解码器

Transformer 架构是一种序列到序列(sequence-to-sequence，Seq2Seq)的模型，最初是为机器翻译等序列到序列任务而开发的。标准的Transformer 架构有两个主要组件：编码器和解码器，二者都十分依赖注意力机制。编码器的任务是处理输入文本，识别有价值的特征，并生成有意义的文本表示，称为嵌入(embedding)。 解码器使用这个嵌入来生成一个输出，比如翻译结果或摘要文本。这个输出有效地解释了编码信息。

GPT

GPT（Generative Pre-trained Transformer，生成式预训练 Transformer）是一类基于Transformer 架构的模型，专门利用原始架构中的解码器部分。在 GPT 中，不存在编码器，因此无须通过交叉注意力机制来整合编码器产生的嵌入。也就是说，GPT 仅依赖解码器内部的自注意力机制来生成上下文感知的表示和预测结果。请注意，BERT 等其他一些众所周知的模型是基于编码器的。

参考文献

《大模型应用开发极简入门：基于GPT-4和ChatGPT（第2版）》