【AI光速理解】从图像处理到文本处理(RNN,LSTM,Transformer,GPT)

1.前言

前面我们研究的CNN、YOLO是处理图像的,一般用来识别提取单张图像内的信息,多次输入的多张图像之间的关联信息,很少处理。

而文本数据不同,文本的含义不像图像一样,所见即所得。文本数据解析非常依赖文本所在的上下文,上下文其实就是指语境。也就是说对当前文本的理解,需要参考历史和未来输入的文本,数据关联性极强,所以理所当然就需要引入记忆机制,实现文本信息的保存,参考,关联更新。

2.RNN(循环神经网络)

RNN是一种专门处理序列数据的神经网络。它的核心结构通常包含三层:输入层、隐藏层(隐藏层就是中间处理层)和输出层。RNN的独特之处在于,其隐藏层具有"记忆"功能,能够保存之前时间步的信息。

具体工作流程如下:

  1. 更新隐藏层 :当输入数据进入RNN后,网络并不会直接计算输出。而是首先结合当前时刻的输入上一时刻的隐藏状态来更新当前时刻的隐藏层。这个计算过程通常包含一个非线性激活函数(如tanh),使得网络能够学习更复杂的模式。更新后的隐藏层就承载了到当前时刻为止的序列历史信息。
  2. 计算输出 :在得到新的隐藏状态后,RNN才会利用它来生成当前时刻的输出。输出层通常是一个全连接层,将隐藏层的值映射到最终的预测结果上。

这种"先更新记忆,再基于记忆输出"的机制,使得RNN非常擅长处理像语言、语音、时间序列预测等前后关联紧密的任务。

在这种带循环的神经网络下,使用训练文本数据进行训练,肯定比CNN更合适。所以不同的数据需要用适合数据特征的模型去处理。用CNN也不是不行,只是说RNN更加合理效果更好。

3.LSTM(长短期记忆网络)

LSTM对记忆增加了更多的控制单元,这些单元可以参与训练,从而实现了可控的遗忘与记忆机制。

普通RNN像金鱼记忆:新信息直接覆盖旧记忆,稍微长点的序列就记不住开头。

LSTM引入智能记忆管理系统

  1. 长期记忆库:专门储存重要信息,不易被覆盖
  2. 三个智能门控
    • 遗忘门:选择性地忘记无用旧记忆(如:过时信息)
    • 输入门:选择性地记住重要新信息(如:关键事实)
    • 输出门:决定当前思考使用哪些记忆

关键改进

  • 梯度高速公路:长期信息通过长期记忆库稳定流动,解决梯度消失
  • 精细控制:每个时间步决定记住什么、忘记什么、使用什么
  • 长期依赖:能记住100步甚至更久前的关键信息

类比

  • RNN:普通笔记本,新内容写在旧内容上
  • LSTM:智能笔记本,用不同颜色笔区分重点,用书签标记关键页

效果:LSTM给神经网络添加了"选择性记忆"组件,成为处理长序列任务的标配。

4.Transformer

LSTM序列是前后关联的,关联长度有限,如果太长计算就会很慢,就像是遍历链表一样。

而Transformer中,词与词之间是全局关联,每个词关注所有其他词,直接连接,连接线上记录两个词之间的关联程度(也就是注意力)权重,当然这会耗费更多存储空间和计算量。为了方便并行处理,Transformer中对词进行了编号,这样即使并行处理,可能记住词的顺序,不会弄乱。

QKV计算法:

对于一句话中的每个词都要计算出Q, K ,V三个向量。

  • Q是用于查询其他关联词的特征向量
  • K是用于被别人查询的特征向量,用于快速定位关联词
  • V是特征的详细描述,用于精准计算关联程度

由于Transformer的词是全关联,所以上下文大小是决定资源占用的关键参数。

5.GPT

基于Transformer这个强大的"骨架",OpenAI通过以下方式构建了今天的GPT模型:

  1. 架构选择:完整的Transformer包含编码器(Encoder)和解码器(Decoder)。像BERT使用的是编码器部分(擅长理解),而GPT系列模型主要使用的是解码器部分(擅长生成)。

  2. 核心训练范式:采用"预训练 + 微调"的两阶段模式。

    • 预训练:模型在海量文本(如GPT-3使用了45TB数据)上通过"预测下一个词"的任务,学习语言规律和世界知识。
    • 微调与对齐:为了让模型更好地遵循人类指令、输出有用且安全的回答,会采用基于人类反馈的强化学习(RLHF) 等技术进行精细调整。

6.多模态

最新的模型(如GPT-4)已不局限于文本,而是发展为"多模态"模型,可以同时理解和处理图像、文本等多种信息。

7.展望

结构决定功能,目前神经网络结构还需要人类参与设计,随着技术的发展,如果要实现神经网络全自主进化,必须实现神经网络结构的自动调整,而不仅仅是权重调整。

相关推荐
文心快码BaiduComate17 小时前
百度云与光本位签署战略合作:用AI Agent 重构芯片研发流程
前端·人工智能·架构
风象南17 小时前
Claude Code这个隐藏技能,让我告别PPT焦虑
人工智能·后端
Mintopia18 小时前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮19 小时前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬19 小时前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia19 小时前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区20 小时前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两1 天前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪1 天前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain