1.前言
前面我们研究的CNN、YOLO是处理图像的,一般用来识别提取单张图像内的信息,多次输入的多张图像之间的关联信息,很少处理。
而文本数据不同,文本的含义不像图像一样,所见即所得。文本数据解析非常依赖文本所在的上下文,上下文其实就是指语境。也就是说对当前文本的理解,需要参考历史和未来输入的文本,数据关联性极强,所以理所当然就需要引入记忆机制,实现文本信息的保存,参考,关联更新。
2.RNN(循环神经网络)
RNN是一种专门处理序列数据的神经网络。它的核心结构通常包含三层:输入层、隐藏层(隐藏层就是中间处理层)和输出层。RNN的独特之处在于,其隐藏层具有"记忆"功能,能够保存之前时间步的信息。
具体工作流程如下:
- 更新隐藏层 :当输入数据进入RNN后,网络并不会直接计算输出。而是首先结合当前时刻的输入 和上一时刻的隐藏状态来更新当前时刻的隐藏层。这个计算过程通常包含一个非线性激活函数(如tanh),使得网络能够学习更复杂的模式。更新后的隐藏层就承载了到当前时刻为止的序列历史信息。
- 计算输出 :在得到新的隐藏状态后,RNN才会利用它来生成当前时刻的输出。输出层通常是一个全连接层,将隐藏层的值映射到最终的预测结果上。
这种"先更新记忆,再基于记忆输出"的机制,使得RNN非常擅长处理像语言、语音、时间序列预测等前后关联紧密的任务。
在这种带循环的神经网络下,使用训练文本数据进行训练,肯定比CNN更合适。所以不同的数据需要用适合数据特征的模型去处理。用CNN也不是不行,只是说RNN更加合理效果更好。
3.LSTM(长短期记忆网络)
LSTM对记忆增加了更多的控制单元,这些单元可以参与训练,从而实现了可控的遗忘与记忆机制。
普通RNN像金鱼记忆:新信息直接覆盖旧记忆,稍微长点的序列就记不住开头。
LSTM引入智能记忆管理系统:
- 长期记忆库:专门储存重要信息,不易被覆盖
- 三个智能门控 :
- 遗忘门:选择性地忘记无用旧记忆(如:过时信息)
- 输入门:选择性地记住重要新信息(如:关键事实)
- 输出门:决定当前思考使用哪些记忆
关键改进:
- ✅ 梯度高速公路:长期信息通过长期记忆库稳定流动,解决梯度消失
- ✅ 精细控制:每个时间步决定记住什么、忘记什么、使用什么
- ✅ 长期依赖:能记住100步甚至更久前的关键信息
类比:
- RNN:普通笔记本,新内容写在旧内容上
- LSTM:智能笔记本,用不同颜色笔区分重点,用书签标记关键页
效果:LSTM给神经网络添加了"选择性记忆"组件,成为处理长序列任务的标配。
4.Transformer
LSTM序列是前后关联的,关联长度有限,如果太长计算就会很慢,就像是遍历链表一样。
而Transformer中,词与词之间是全局关联,每个词关注所有其他词,直接连接,连接线上记录两个词之间的关联程度(也就是注意力)权重,当然这会耗费更多存储空间和计算量。为了方便并行处理,Transformer中对词进行了编号,这样即使并行处理,可能记住词的顺序,不会弄乱。
QKV计算法:
对于一句话中的每个词都要计算出Q, K ,V三个向量。
- Q是用于查询其他关联词的特征向量
- K是用于被别人查询的特征向量,用于快速定位关联词
- V是特征的详细描述,用于精准计算关联程度
由于Transformer的词是全关联,所以上下文大小是决定资源占用的关键参数。
5.GPT
基于Transformer这个强大的"骨架",OpenAI通过以下方式构建了今天的GPT模型:
-
架构选择:完整的Transformer包含编码器(Encoder)和解码器(Decoder)。像BERT使用的是编码器部分(擅长理解),而GPT系列模型主要使用的是解码器部分(擅长生成)。
-
核心训练范式:采用"预训练 + 微调"的两阶段模式。
- 预训练:模型在海量文本(如GPT-3使用了45TB数据)上通过"预测下一个词"的任务,学习语言规律和世界知识。
- 微调与对齐:为了让模型更好地遵循人类指令、输出有用且安全的回答,会采用基于人类反馈的强化学习(RLHF) 等技术进行精细调整。
6.多模态
最新的模型(如GPT-4)已不局限于文本,而是发展为"多模态"模型,可以同时理解和处理图像、文本等多种信息。
7.展望
结构决定功能,目前神经网络结构还需要人类参与设计,随着技术的发展,如果要实现神经网络全自主进化,必须实现神经网络结构的自动调整,而不仅仅是权重调整。