第06课：Transformer与注意力机制——大模型背后的秘密武器

📌 本课学习目标

学完这节课，你能搞明白以下问题：

大模型为什么能理解人话？底层靠的是什么技术？

"注意力机制"到底在干什么？为什么叫"注意力"？

Transformer为什么被称为AI界的"大一统架构"？

"数据-参数-训练"这三件套是什么关系？大模型到底是怎么训练出来的？

🤔 课前思考

上节课我们说大模型可以有几千亿个参数，读了几乎全人类的所有文字，但你有没有想过一个问题：

人读一句话的时候，会自动区分重点。比如"我昨天在北京参加了人工智能大会"这句话，你的大脑会自动把"北京""人工智能大会"当作关键信息，而"昨天""参加了"只是辅助信息。

但以前的AI做不做得到？答案是：做不到！在2017年之前，AI处理语言的方式就像是一个"逐字朗读"的机器，一个字一个字地读，读到后面就忘了前面。

2017年，Google的一篇论文改变了这一切。这篇论文提出的架构叫Transformer，它让AI终于学会了"聚焦重点"。

这节课，我们就来把这个大模型背后的秘密武器拆解清楚。

一、Transformer之前：AI的"阅读障碍"

在Transformer出现之前，AI处理语言主要是靠一种叫**RNN(循环神经网络)**的技术。

RNN的工作方式很简单：一个字一个字地读。

复制代码

输入："小明买了苹果，他吃了它"

RNN的阅读过程：
读"小" → 记住"小" → 读"明" → 记住"小明" → 读"买" → 记住"小明买"
→ 读"了" → 读"苹" → 读"果" → ... → 读到"它"的时候
→ 前面"苹果"的记忆已经模糊了 → 搞不清"它"指什么

这就像你读一本500页的书，只能一个字一个字地读，读完第500页的时候，第1页写了什么你几乎全忘了。

RNN有两个致命的问题：

问题	具体表现	后果
长程遗忘	句子一长，就记不住前面的内容	"它"是指苹果还是小明？AI搞不清
串行处理	必须逐字处理，不能同时处理多个字	训练速度极慢，数据多了根本跑不完

这俩问题严重限制了AI处理语言的能力，直到2017年，Transformer出现了。

二、注意力机制：让AI学会"聚焦重点"

2.1 先理解人类的"注意力"

想象你在嘈杂的餐厅里跟朋友聊天，周围有吵闹的小孩、服务员喊菜、隔壁桌在大笑，但你依然能自动"过滤"掉噪音，聚焦到朋友说的话上。

这就是人类的"注意力"：在大量信息中，自动锁定最重要的部分。

阅读也是一样，来看这句话："我今天去银行取了五千块现金 ，路上差点被一辆快递车撞到。"你大脑自动关注的是加粗的部分，"今天""了""路上"这些词你几乎不会特意去想。

2.2 AI的注意力：让每个词都能"看到"所有其他的词

Transformer的核心创新就是自注意力机制(Self-Attention)。

它的原理用一句话概括就是：让句子里的每一个词，都能直接"看到"并评估与所有其他词的关联程度。

回到经典例子："小明买了苹果，他吃了它"

复制代码

当AI处理"它"这个字时：
"它"和"小明"的关联度：0.2(低，"他"已经指代了小明)
"它"和"买了"的关联度：0.3(中，"买了"是个动作)
"它"和"苹果"的关联度：0.8(高！"吃了"的东西通常就是"买了"的东西)
"它"和"他"的关联度：0.1(低)

→ AI判断："它"最可能指的是"苹果" ✓

你看，AI并不需要"逐字阅读"，它能同时看到整个句子里的所有词，然后自动判断哪些词之间的关联程度最强。

类比一下：RNN像一个人蒙着眼睛、只能摸着墙一步步往前走；Transformer则像是一个人站在高处，能一眼看到整条路的全部情况。当然后者走得更快、判断更准。

2.3 为什么叫"注意力"？

因为这种机制模拟了人类注意力的行为，在众多的信息中，自动"分配注意力"给最重要的信息。

"它"这个词在分析时，把最多的"注意力"分配给了"苹果"，所以判断"它"是指苹果。这跟你在餐厅里自动"聚焦"朋友声音的基本原理是一样的。

三、Transformer架构：四个核心部件

Transformer不是一个单一的技术，而是由几个部件组合而成的架构，我用通俗的方式给大家逐个拆解。

部件一：自注意力机制(Self-Attention)

上面我已经讲过，让每个词都能看到所有其他的词，自动判断关联度。

这是Transformer的灵魂。

部件二：位置编码(Positional Encoding)

有个问题：Transformer是同时处理所有词的，那它怎么知道每个词的先后顺序？

比如"狗咬人"和"人咬狗"，词完全一样，但意思完全不同。

解决方案：是给每个词加一个"位置标签"。

复制代码

"狗咬人"：
"狗" → 位置1  "咬" → 位置2  "人" → 位置3

"人咬狗"：
"人" → 位置1  "咬" → 位置2  "狗" → 位置3

类比：就像排队的时候给每个人发一个号码牌，虽然大家都同时站在队里，但一看号码就知道谁先来谁后到。

部件三：多头注意力(Multi-Head Attention)

"多头"是什么意思？就是同时从多个角度分析语义。

举个例子："我要去银行"这句话------

角度1(语法角度)："我"是主语，"去"是动词，"银行"是名词

角度2(语义角度)："银行"和"去"有很强的动作关联

角度3(场景角度)：如果上下文提到了"取钱"，"银行"就更可能是金融机构

单个注意力机制只能从一个角度分析，多头注意力能同时从多个角度分析，理解自然更全面、更准确。

类比：一个人看一幅画，只从一个角度看可能觉得一般；换5个角度分别看，就能全面欣赏这幅画的美。多头注意力就是让AI同时从多个"视角"理解一句话。

部件四：前馈网络(Feed-Forward) + 层叠结构

Transformer不是一层的，而是把注意力机制和前馈网络叠了很多层。

复制代码

输入文字
  → 第1层：注意力 + 前馈(提取基础的语法关系)
  → 第2层：注意力 + 前馈(提取短语的含义)
  → 第3层：注意力 + 前馈(理解句子的整体意思)
  → ...(可能叠几十层甚至上百层)
  → 输出：对整段文字的深度理解

就像你读一篇文章，第一遍理解字面的意思，第二遍理解深层含义，第三遍形成自己的观点，Transformer的每一层都是在做类似的"逐步深化理解"。

四、Transformer为什么"大一统"了AI？

2017年的那篇论文

Google在2017年发表论文，标题非常霸气："Attention Is All You Need"(注意力就是你需要的一切)。

这个标题的意思是：我们不需要RNN、不需要CNN，光靠注意力机制就够了。

当时很多人不信，但后来的发展证明了这篇论文是对的。

从NLP到"万物皆可Transformer"

Transformer最初是为处理语言设计的，但后来科学家发现，它的架构极其通用：

年份	应用突破	说明
2018	GPT-1	第一个基于Transformer的生成式语言模型
2018	BERT	用Transformer做语言理解，刷新多项NLP纪录
2020	ViT	把Transformer用在图像识别上，效果媲美CNN
2021	DALL-E	用Transformer生成图像
2022	ChatGPT	基于Transformer的大语言模型引爆全球
2024	GPT-4o	Transformer同时处理文字、图像、语音

从2017年到现在，几乎所有最强大的AI模型都是基于Transformer架构的。 这在AI历史上是前所未有的，一个架构"统一"了几乎所有的领域。

你听过的所有主流大模型，底层都是基于Transformer的：

复制代码

GPT系列(OpenAI)─────── Transformer
文心一言(百度)───────── Transformer
通义千问(阿里)───────── Transformer
DeepSeek(深度求索)──── Transformer
Kimi(月之暗面)───────── Transformer
豆包(字节跳动)───────── Transformer

五、"数据-参数-训练"三件套：大模型是怎么造出来的？

前面我们讲了很多Transformer的原理，但你可能还想知道：大模型具体是怎么训练出来的？

这个过程可以用三样东西来概括：数据、参数、训练。

5.1 数据 = 教材

大模型的训练数据规模超乎你的想象：

文本数据 ：互联网上的书籍、文章、网页、论文、代码......总计可能达到几十TB的文字

训练数据量 ：一个大型语言模型的训练数据，相当于一个人读了几百万本书

数据越多，模型"见识"越广，知识面就越全。就像一个人读的书越多，聊天时能聊的话题就越多。

5.2 参数 = 知识点

上一课我们讲过，参数就是模型"学到的规律"，这里我再展开讲一下训练过程中参数是怎么变化的：

复制代码

训练前(随机初始化)：
  参数全是随机数 → 模型输出的全是乱码

训练过程中：
  模型看了一条数据 → 输出结果 → 对比标准答案 → 发现差距
  → 调整参数 → 下次输出更接近的标准答案
  → 重复这个过程几十亿次......

训练后：
  参数已经"记住"了数据中的规律 → 模型能输出合理的内容

类比：参数就像你脑子里的知识点，做了一万道数学题之后，你脑子里积累了大量的"解题规律"，这些规律就是你的"参数"。参数越多，脑子越灵活，能记住的规律就越细。

5.3 训练 = 学习过程

大模型的训练分为两个阶段：

第一阶段：预训练(Pre-training)------"通识教育"

先让模型读海量的数据，学习语言的基本规律。这个阶段不教它做任何具体的任务，只让它"博览群书"。

复制代码

相当于：一个人从小学到高中，学习语文、数学、英语等各种基础知识
结果：模型拥有了广泛的语言知识，但还不能很好地"对话"

这个阶段非常昂贵，比如训练GPT-3据估计花费了几千万美元的算力成本。

第二阶段：微调(Fine-tuning)------"专业培训"

在预训练的基础上，继续用特定领域的数据进一步训练，让模型学会具体的任务。

复制代码

相当于：一个人高中毕业后，又去参加"客服培训班"或"写作培训班"
结果：模型学会了"如何好好对话"、"如何写文章"等具体技能

还有一个关键技术叫RLHF(基于人类反馈的强化学习)，让人类给模型的回答打分，模型根据分数调整自己。这就像写作文时老师给你打分并写评语，你根据反馈来持续改进。

总结三件套的关系：

数据是"教材"------教材越好、越多，学出来的知识越扎实

参数是"知识点"------通过反复学习积累在大脑里的规律

训练是"学习过程"------预训练打基础，微调学专业

🏢 业务场景实战

场景一：搜索引擎为什么能理解你的真实意图？

你搜索"苹果多少钱"，搜索引擎需要判断，你问的是水果苹果还是苹果手机？

传统搜索引擎只能靠关键词匹配，经常搞错，而基于Transformer的搜索引擎则能理解上下文：

复制代码

如果你最近搜索过"iPhone 16""手机壳" → "苹果"大概率指的是苹果手机
如果你最近搜索过"水果""维生素" → "苹果"大概率是指水果

Transformer的注意力机制，可以让搜索引擎自动分析"苹果"和前后搜索词的关联度，从而判断出真实的意图。

场景二：智能客服为什么能记住之前的对话？

用户问："我的订单怎么了？"

客服："好的，请问您的订单号是多少？"

用户："123456"

客服："查询到您的订单123456，目前显示已发货，预计明天到达。"

在多轮对话中，AI需要记住之前的对话内容。Transformer的自注意力机制，可以让每个词都能"看到"完整的对话历史，所以它知道用户说的"123456"就是订单号，而不是随便说的一串数字。

✅ 本课知识卡片

复制代码

┌─────────────────────────────────────────────────┐
│      第06课 · Transformer与注意力机制速查           │
├─────────────────────────────────────────────────┤
│ RNN的问题：长程遗忘 + 串行处理慢                    │
│                                                   │
│ 注意力机制 = 在大量信息中自动聚焦最重要的部分          │
│   类比：嘈杂餐厅里自动锁定朋友的声音                 │
│                                                   │
│ Transformer四大部件：                              │
│   自注意力(看全局)+ 位置编码(知顺序)             │
│   + 多头注意力(多角度) + 层叠结构(逐步深化)        │
│                                                   │
│ 论文名言："Attention Is All You Need"              │
│ 所有主流大模型都基于Transformer                     │
│                                                   │
│ 大模型三件套：                                     │
│   数据(教材) + 参数(知识点) + 训练(学习过程)      │
│   预训练(通识教育) → 微调(专业培训)                │
└─────────────────────────────────────────────────┘

🔗 下一课预告

搞懂了Transformer这个"引擎"，下一课我们来看看它驱动出来的"产品"------大语言模型。

ChatGPT、DeepSeek、文心一言、Kimi......这些你能叫出名的大语言模型，它们各自擅长什么？有什么区别？日常使用应该选哪个？

下一课：大语言模型与文本生成------让AI成为你的"全能写手"

好途工坊 · 好途相伴，前程无忧