【AI光速理解】从图像处理到文本处理（RNN,LSTM,Transformer,GPT）

前面我们研究的CNN、YOLO是处理图像的，一般用来识别提取单张图像内的信息，多次输入的多张图像之间的关联信息，很少处理。

而文本数据不同，文本的含义不像图像一样，所见即所得。文本数据解析非常依赖文本所在的上下文，上下文其实就是指语境。也就是说对当前文本的理解，需要参考历史和未来输入的文本，数据关联性极强，所以理所当然就需要引入记忆机制，实现文本信息的保存，参考，关联更新。

RNN是一种专门处理序列数据的神经网络。它的核心结构通常包含三层：输入层、隐藏层（隐藏层就是中间处理层）和输出层。RNN的独特之处在于，其隐藏层具有"记忆"功能，能够保存之前时间步的信息。

具体工作流程如下：

更新隐藏层 ：当输入数据进入RNN后，网络并不会直接计算输出。而是首先结合当前时刻的输入 和上一时刻的隐藏状态来更新当前时刻的隐藏层。这个计算过程通常包含一个非线性激活函数（如tanh），使得网络能够学习更复杂的模式。更新后的隐藏层就承载了到当前时刻为止的序列历史信息。
计算输出 ：在得到新的隐藏状态后，RNN才会利用它来生成当前时刻的输出。输出层通常是一个全连接层，将隐藏层的值映射到最终的预测结果上。

这种"先更新记忆，再基于记忆输出"的机制，使得RNN非常擅长处理像语言、语音、时间序列预测等前后关联紧密的任务。

在这种带循环的神经网络下，使用训练文本数据进行训练，肯定比CNN更合适。所以不同的数据需要用适合数据特征的模型去处理。用CNN也不是不行，只是说RNN更加合理效果更好。

LSTM对记忆增加了更多的控制单元，这些单元可以参与训练，从而实现了可控的遗忘与记忆机制。

普通RNN像金鱼记忆：新信息直接覆盖旧记忆，稍微长点的序列就记不住开头。

LSTM引入智能记忆管理系统：

长期记忆库：专门储存重要信息，不易被覆盖
三个智能门控 ：
- 遗忘门：选择性地忘记无用旧记忆（如：过时信息）
- 输入门：选择性地记住重要新信息（如：关键事实）
- 输出门：决定当前思考使用哪些记忆

关键改进：

类比：

效果：LSTM给神经网络添加了"选择性记忆"组件，成为处理长序列任务的标配。

LSTM序列是前后关联的，关联长度有限，如果太长计算就会很慢，就像是遍历链表一样。

而Transformer中，词与词之间是全局关联，每个词关注所有其他词，直接连接，连接线上记录两个词之间的关联程度（也就是注意力）权重，当然这会耗费更多存储空间和计算量。为了方便并行处理，Transformer中对词进行了编号，这样即使并行处理，可能记住词的顺序，不会弄乱。

QKV计算法：

对于一句话中的每个词都要计算出Q, K ,V三个向量。

由于Transformer的词是全关联，所以上下文大小是决定资源占用的关键参数。

基于Transformer这个强大的"骨架"，OpenAI通过以下方式构建了今天的GPT模型：

架构选择：完整的Transformer包含编码器（Encoder）和解码器（Decoder）。像BERT使用的是编码器部分（擅长理解），而GPT系列模型主要使用的是解码器部分（擅长生成）。
核心训练范式：采用"预训练 + 微调"的两阶段模式。
- 预训练：模型在海量文本（如GPT-3使用了45TB数据）上通过"预测下一个词"的任务，学习语言规律和世界知识。
- 微调与对齐：为了让模型更好地遵循人类指令、输出有用且安全的回答，会采用基于人类反馈的强化学习（RLHF）等技术进行精细调整。

最新的模型（如GPT-4）已不局限于文本，而是发展为"多模态"模型，可以同时理解和处理图像、文本等多种信息。

结构决定功能，目前神经网络结构还需要人类参与设计，随着技术的发展，如果要实现神经网络全自主进化，必须实现神经网络结构的自动调整，而不仅仅是权重调整。