从 RNN、CNN 到 Transformer:AI 的“江湖风云录”

👉 添加我的微信:JKfog233,邀你加入【Hello World 进阶群】,一起成长、交流、内推、分享机会!

大家好,欢迎来到我们的"大模型江湖故事"系列开篇。今天,我们要聊聊一段AI江湖的血雨腥风------从循环神经网络(RNN)、卷积神经网络(CNN)到 Transformer 的"霸主更替"。

第一章:江湖初代宗师 RNN ------ 一根筋的少林武僧

很久很久以前(大概 2013 年前后),江湖上流传着一门武功,名叫 循环神经网络 RNN

RNN 是个讲究"传承"的武林门派,每一招都得看上一招怎么打。上一刻学到的经验,会"传"到下一刻去打敌人。于是它特别擅长处理顺序任务:比如 语言建模、语音识别,就像练武时一招一式都得按顺序来。

但问题来了:

  1. 这门武功练到后面记性不好,容易"忘前忘后"------我们叫它 梯度消失或梯度爆炸
  2. 它学得慢,算得也慢,因为每一招都得等上一招结束才能打下一招(序列计算)。

于是,江湖人开始改良:LSTM、GRU 相继登场,给 RNN 加上了"记忆小本本",还能学着"选择性遗忘"。但,问题并没完全解决,RNN 依然是那种 功夫扎实却跑不快 的武僧。

第二章:神秘的剑客 CNN ------ 横扫千军的少林棍法

正当 RNN 在江湖里苦苦挣扎时,一位剑客横空出世:卷积神经网络 CNN

CNN 原本是图像江湖的天才选手,擅长用"卷积核"在图像上来回扫荡,像是拿着放大镜在图片的每个角落找敌人。它的优势是:

  • 能看全局,但又能兼顾局部特征。
  • 并行计算!这招太强了!训练速度嗖嗖的。

于是 CNN 在图像界一路开挂,AlexNet、VGG、ResNet 接连称霸 ImageNet 大赛。

后来人们发现,CNN 也能做文本!一招"Text-CNN" 直接 KO 了一堆 RNN 模型。

但 CNN 终究有个短板:局部视野。它的"卷积核"一次只能看一小块,想看全局只能不断堆叠层数,堆得又高又深,计算量吓人。

第三章:绝世武学 Transformer ------ 武林盟主登基

2017 年,Google 的研究院突然甩出了一本武林秘籍:《Attention is All You Need》。

这门新功夫名叫 Transformer,它改变了江湖的格局。

Transformer 的核心理念只有一句:

"别再一招一式排队打了,先看清全局,再精准出击。"

1. 整体架构:编码器 + 解码器

Transformer 是一个"双剑合璧 "的架构,由 编码器(Encoder)解码器(Decoder) 组成:

  • 编码器:负责理解输入(比如一句中文),它会分成多层,每一层都会用"注意力"找出词与词之间的关系,然后逐步抽取更高层语义。
  • 解码器:负责生成输出(比如翻译成英文)。它不仅要看自己已经生成的内容,还要参考编码器提供的"全局信息"。

类比:编码器像情报部门,先把敌人的情况摸清楚;解码器像指挥官,根据情报部署进攻。

(现在的 GPT 类模型其实只用解码器部分,但原版 Transformer 双剑齐发,翻译效果爆炸提升。)

2. 注意力机制(Attention):AI 的"鹰眼术"

RNN 按顺序看,CNN 局部扫描,而 Transformer 有一招绝技:

我一次看全局,谁重要我多关注,谁不重要我少关注。

这就是 注意力机制

比如一句话:"小明昨天买了苹果。"

当模型预测"苹果"这个词时,它能直接看到"买了"这个动词的重要性,而不是顺序挨个猜。

公式层面,注意力会算一个"相关性分数",然后加权求和,简单说就是:

输出 = 所有词的"信息" × "和当前预测词的相关性"

3. 自注意力(Self-Attention):全员互相盘查

注意力有很多种,Transformer 用的是 自注意力

"我看自己,也看别人,大家互相打分。"

在一层自注意力里,每个词都会和句子里的其他词计算相关性分数,得到一个全局加权信息。

举例:预测"苹果"时,它不光看"买了",还会看"昨天"、"小明",判断上下文意义。

这招直接解决了 RNN 的远距离依赖问题,因为它可以 一步就跳到远方的词,不用一层层传递。

4. 多头注意力(Multi-Head Attention):八只眼睛看世界

单头注意力可能只能看一个角度,比如语义关系。那如果有多个不同维度的关系呢?

Transformer 的解决方案是:多头注意力

"每个头看不同的信息维度,最后合并。"

举例:

  • 头 1:关注主语和谓语关系
  • 头 2:关注时态
  • 头 3:关注宾语和修饰词

这就像八个高手一起观察敌情,得到的信息更全面。

5. 位置编码(Positional Encoding):别忘了顺序

Transformer 并行处理所有词,容易"失忆":不清楚词的先后顺序。

于是它发明了 位置编码:给每个词加上一个"位置标签",就像是给每个士兵编号。这样模型既能并行,又知道谁先谁后。

第四章:AI 江湖的大势

Transformer 不只是新一代的模型,它开启了 大模型时代

  • 你不需要专门针对某个任务训练一个模型,而是先训练一个"大而全"的基础模型,再做少量微调。
  • 它的扩展性惊人,参数越多越聪明,数据越多越强大。

回头看,RNN 像苦修的少林武僧,CNN 像横扫千军的剑客,而 Transformer 则是拿着"自动瞄准导弹"的武林盟主。

未来的江湖会不会有人挑战 Transformer?我们不得而知,但可以确定的是,大模型才刚刚开始

彩蛋:三个知识点帮你记牢

  1. RNN 擅长处理序列,但有记忆力差、计算慢的缺点。
  2. CNN 用局部卷积+池化扫全局,计算快但"看不远"。
  3. Transformer 用注意力机制直接全局建模,能并行、能扩展,还能记顺序。

下期预告

下一篇,我们要聊聊 LLM(大型语言模型)是如何依靠 Transformer 练成"武林神功"的?

  • 为什么 GPT、LLaMA、Claude、Gemini 这些名字背后,都是 Transformer 的传人?
  • LLM 是怎么用"海量数据+参数"把 Transformer 的招式练到出神入化的?
  • 它们又是如何变得能写文章、写代码、甚至像人一样对话?

LLM = Transformer 的究极进化版,我们下一期就来揭开这层面纱!

如果你想看更多"AI 江湖故事",点个赞,我就更快更新。

👉 添加我的微信:JKfog233,邀你加入【Hello World 进阶群】,一起成长、交流、内推、分享机会!

相关推荐
EndingCoder16 分钟前
Three.js + AI:结合 Stable Diffusion 生成纹理贴图
开发语言·前端·javascript·人工智能·stable diffusion·ecmascript·three.js
俊哥V29 分钟前
字节跳动“扣子”(Coze)开源:AI智能体生态的技术革命
人工智能·开源
Sherlock Ma32 分钟前
字节跳动GR-3:可泛化、支持长序列复杂操作任务的机器人操作大模型(技术报告解读)
人工智能·计算机视觉·语言模型·机器人·大模型·aigc·具身智能
蚝油菜花34 分钟前
将GLM 4.5接入Claude Code,打造最具性价比的AI工程师
人工智能·ai编程·claude
汪子熙36 分钟前
什么是大语言模型性能评估的 pass@5 指标
人工智能
亚马逊云开发者40 分钟前
基于 Amazon Nova 实现优化呼叫中心导航场景
人工智能
涛思数据(TDengine)1 小时前
时序数据库厂商 TDengine 发布 AI 原生的工业数据管理平台 IDMP,“无问智推”改变数据消费范式
大数据·运维·数据库·人工智能·tdengine
那年一路北1 小时前
Deforum Stable Diffusion,轻松实现AI视频生成自由!
人工智能·stable diffusion·音视频
正经教主1 小时前
【n8n】如何跟着AI学习n8n【02.5】:第一部分总练习
人工智能·学习·教程·n8n
CV工程师丁Sir2 小时前
Vibe Coding vs 规范驱动开发:AI 时代编程范式的冲突与融合
人工智能·驱动开发