📌 本课学习目标
学完这节课,你能搞明白以下问题:
- 大模型为什么能理解人话?底层靠的是什么技术?
- "注意力机制"到底在干什么?为什么叫"注意力"?
- Transformer为什么被称为AI界的"大一统架构"?
- "数据-参数-训练"这三件套是什么关系?大模型到底是怎么训练出来的?
🤔 课前思考
上节课我们说大模型可以有几千亿个参数,读了几乎全人类的所有文字,但你有没有想过一个问题:
人读一句话的时候,会自动区分重点。比如"我昨天在北京参加了人工智能大会"这句话,你的大脑会自动把"北京""人工智能大会"当作关键信息,而"昨天""参加了"只是辅助信息。
但以前的AI做不做得到?答案是:做不到!在2017年之前,AI处理语言的方式就像是一个"逐字朗读"的机器,一个字一个字地读,读到后面就忘了前面。
2017年,Google的一篇论文改变了这一切。这篇论文提出的架构叫Transformer,它让AI终于学会了"聚焦重点"。
这节课,我们就来把这个大模型背后的秘密武器拆解清楚。
一、Transformer之前:AI的"阅读障碍"
在Transformer出现之前,AI处理语言主要是靠一种叫**RNN(循环神经网络)**的技术。
RNN的工作方式很简单:一个字一个字地读。
输入:"小明买了苹果,他吃了它"
RNN的阅读过程:
读"小" → 记住"小" → 读"明" → 记住"小明" → 读"买" → 记住"小明买"
→ 读"了" → 读"苹" → 读"果" → ... → 读到"它"的时候
→ 前面"苹果"的记忆已经模糊了 → 搞不清"它"指什么
这就像你读一本500页的书,只能一个字一个字地读,读完第500页的时候,第1页写了什么你几乎全忘了。
RNN有两个致命的问题:
| 问题 | 具体表现 | 后果 |
|---|---|---|
| 长程遗忘 | 句子一长,就记不住前面的内容 | "它"是指苹果还是小明?AI搞不清 |
| 串行处理 | 必须逐字处理,不能同时处理多个字 | 训练速度极慢,数据多了根本跑不完 |
这俩问题严重限制了AI处理语言的能力,直到2017年,Transformer出现了。
二、注意力机制:让AI学会"聚焦重点"
2.1 先理解人类的"注意力"
想象你在嘈杂的餐厅里跟朋友聊天,周围有吵闹的小孩、服务员喊菜、隔壁桌在大笑,但你依然能自动"过滤"掉噪音,聚焦到朋友说的话上。
这就是人类的"注意力":在大量信息中,自动锁定最重要的部分。
阅读也是一样,来看这句话:"我今天去银行 取了五千块现金 ,路上差点被一辆快递车撞到。"你大脑自动关注的是加粗的部分,"今天""了""路上"这些词你几乎不会特意去想。
2.2 AI的注意力:让每个词都能"看到"所有其他的词
Transformer的核心创新就是自注意力机制(Self-Attention)。
它的原理用一句话概括就是:让句子里的每一个词,都能直接"看到"并评估与所有其他词的关联程度。
回到经典例子:"小明买了苹果,他吃了它"
当AI处理"它"这个字时:
"它"和"小明"的关联度:0.2(低,"他"已经指代了小明)
"它"和"买了"的关联度:0.3(中,"买了"是个动作)
"它"和"苹果"的关联度:0.8(高!"吃了"的东西通常就是"买了"的东西)
"它"和"他"的关联度:0.1(低)
→ AI判断:"它"最可能指的是"苹果" ✓
你看,AI并不需要"逐字阅读",它能同时看到整个句子里的所有词,然后自动判断哪些词之间的关联程度最强。
类比一下:RNN像一个人蒙着眼睛、只能摸着墙一步步往前走;Transformer则像是一个人站在高处,能一眼看到整条路的全部情况。当然后者走得更快、判断更准。
2.3 为什么叫"注意力"?
因为这种机制模拟了人类注意力的行为,在众多的信息中,自动"分配注意力"给最重要的信息。
"它"这个词在分析时,把最多的"注意力"分配给了"苹果",所以判断"它"是指苹果。这跟你在餐厅里自动"聚焦"朋友声音的基本原理是一样的。
三、Transformer架构:四个核心部件
Transformer不是一个单一的技术,而是由几个部件组合而成的架构,我用通俗的方式给大家逐个拆解。
部件一:自注意力机制(Self-Attention)
上面我已经讲过,让每个词都能看到所有其他的词,自动判断关联度。
这是Transformer的灵魂。
部件二:位置编码(Positional Encoding)
有个问题:Transformer是同时处理所有词的,那它怎么知道每个词的先后顺序?
比如"狗咬人"和"人咬狗",词完全一样,但意思完全不同。
解决方案:是给每个词加一个"位置标签"。
"狗咬人":
"狗" → 位置1 "咬" → 位置2 "人" → 位置3
"人咬狗":
"人" → 位置1 "咬" → 位置2 "狗" → 位置3
类比:就像排队的时候给每个人发一个号码牌,虽然大家都同时站在队里,但一看号码就知道谁先来谁后到。
部件三:多头注意力(Multi-Head Attention)
"多头"是什么意思?就是同时从多个角度分析语义。
举个例子:"我要去银行"这句话------
- 角度1(语法角度):"我"是主语,"去"是动词,"银行"是名词
- 角度2(语义角度):"银行"和"去"有很强的动作关联
- 角度3(场景角度):如果上下文提到了"取钱","银行"就更可能是金融机构
单个注意力机制只能从一个角度分析,多头注意力能同时从多个角度分析,理解自然更全面、更准确。
类比 :一个人看一幅画,只从一个角度看可能觉得一般;换5个角度分别看,就能全面欣赏这幅画的美。多头注意力就是让AI同时从多个"视角"理解一句话。
部件四:前馈网络(Feed-Forward) + 层叠结构
Transformer不是一层的,而是把注意力机制和前馈网络叠了很多层。
输入文字
→ 第1层:注意力 + 前馈(提取基础的语法关系)
→ 第2层:注意力 + 前馈(提取短语的含义)
→ 第3层:注意力 + 前馈(理解句子的整体意思)
→ ...(可能叠几十层甚至上百层)
→ 输出:对整段文字的深度理解
就像你读一篇文章,第一遍理解字面的意思,第二遍理解深层含义,第三遍形成自己的观点,Transformer的每一层都是在做类似的"逐步深化理解"。
四、Transformer为什么"大一统"了AI?
2017年的那篇论文
Google在2017年发表论文,标题非常霸气:"Attention Is All You Need"(注意力就是你需要的一切)。
这个标题的意思是:我们不需要RNN、不需要CNN,光靠注意力机制就够了。
当时很多人不信,但后来的发展证明了这篇论文是对的。
从NLP到"万物皆可Transformer"
Transformer最初是为处理语言设计的,但后来科学家发现,它的架构极其通用:
| 年份 | 应用突破 | 说明 |
|---|---|---|
| 2018 | GPT-1 | 第一个基于Transformer的生成式语言模型 |
| 2018 | BERT | 用Transformer做语言理解,刷新多项NLP纪录 |
| 2020 | ViT | 把Transformer用在图像识别上,效果媲美CNN |
| 2021 | DALL-E | 用Transformer生成图像 |
| 2022 | ChatGPT | 基于Transformer的大语言模型引爆全球 |
| 2024 | GPT-4o | Transformer同时处理文字、图像、语音 |
从2017年到现在,几乎所有最强大的AI模型都是基于Transformer架构的。 这在AI历史上是前所未有的,一个架构"统一"了几乎所有的领域。
你听过的所有主流大模型,底层都是基于Transformer的:
GPT系列(OpenAI)─────── Transformer
文心一言(百度)───────── Transformer
通义千问(阿里)───────── Transformer
DeepSeek(深度求索)──── Transformer
Kimi(月之暗面)───────── Transformer
豆包(字节跳动)───────── Transformer
五、"数据-参数-训练"三件套:大模型是怎么造出来的?
前面我们讲了很多Transformer的原理,但你可能还想知道:大模型具体是怎么训练出来的?
这个过程可以用三样东西来概括:数据、参数、训练。
5.1 数据 = 教材
大模型的训练数据规模超乎你的想象:
- 文本数据 :互联网上的书籍、文章、网页、论文、代码......总计可能达到几十TB的文字
- 训练数据量 :一个大型语言模型的训练数据,相当于一个人读了几百万本书
数据越多,模型"见识"越广,知识面就越全。就像一个人读的书越多,聊天时能聊的话题就越多。
5.2 参数 = 知识点
上一课我们讲过,参数就是模型"学到的规律",这里我再展开讲一下训练过程中参数是怎么变化的:
训练前(随机初始化):
参数全是随机数 → 模型输出的全是乱码
训练过程中:
模型看了一条数据 → 输出结果 → 对比标准答案 → 发现差距
→ 调整参数 → 下次输出更接近的标准答案
→ 重复这个过程几十亿次......
训练后:
参数已经"记住"了数据中的规律 → 模型能输出合理的内容
类比:参数就像你脑子里的知识点,做了一万道数学题之后,你脑子里积累了大量的"解题规律",这些规律就是你的"参数"。参数越多,脑子越灵活,能记住的规律就越细。
5.3 训练 = 学习过程
大模型的训练分为两个阶段:
第一阶段:预训练(Pre-training)------"通识教育"
先让模型读海量的数据,学习语言的基本规律。这个阶段不教它做任何具体的任务,只让它"博览群书"。
相当于:一个人从小学到高中,学习语文、数学、英语等各种基础知识
结果:模型拥有了广泛的语言知识,但还不能很好地"对话"
这个阶段非常昂贵,比如训练GPT-3据估计花费了几千万美元的算力成本。
第二阶段:微调(Fine-tuning)------"专业培训"
在预训练的基础上,继续用特定领域的数据进一步训练,让模型学会具体的任务。
相当于:一个人高中毕业后,又去参加"客服培训班"或"写作培训班"
结果:模型学会了"如何好好对话"、"如何写文章"等具体技能
还有一个关键技术叫RLHF(基于人类反馈的强化学习),让人类给模型的回答打分,模型根据分数调整自己。这就像写作文时老师给你打分并写评语,你根据反馈来持续改进。
总结三件套的关系:
- 数据是"教材"------教材越好、越多,学出来的知识越扎实
- 参数是"知识点"------通过反复学习积累在大脑里的规律
- 训练是"学习过程"------预训练打基础,微调学专业
🏢 业务场景实战
场景一:搜索引擎为什么能理解你的真实意图?
你搜索"苹果多少钱",搜索引擎需要判断,你问的是水果苹果还是苹果手机?
传统搜索引擎只能靠关键词匹配,经常搞错,而基于Transformer的搜索引擎则能理解上下文:
如果你最近搜索过"iPhone 16""手机壳" → "苹果"大概率指的是苹果手机
如果你最近搜索过"水果""维生素" → "苹果"大概率是指水果
Transformer的注意力机制,可以让搜索引擎自动分析"苹果"和前后搜索词的关联度,从而判断出真实的意图。
场景二:智能客服为什么能记住之前的对话?
用户问:"我的订单怎么了?"
客服:"好的,请问您的订单号是多少?"
用户:"123456"
客服:"查询到您的订单123456,目前显示已发货,预计明天到达。"
在多轮对话中,AI需要记住之前的对话内容。Transformer的自注意力机制,可以让每个词都能"看到"完整的对话历史,所以它知道用户说的"123456"就是订单号,而不是随便说的一串数字。
✅ 本课知识卡片
┌─────────────────────────────────────────────────┐
│ 第06课 · Transformer与注意力机制速查 │
├─────────────────────────────────────────────────┤
│ RNN的问题:长程遗忘 + 串行处理慢 │
│ │
│ 注意力机制 = 在大量信息中自动聚焦最重要的部分 │
│ 类比:嘈杂餐厅里自动锁定朋友的声音 │
│ │
│ Transformer四大部件: │
│ 自注意力(看全局)+ 位置编码(知顺序) │
│ + 多头注意力(多角度) + 层叠结构(逐步深化) │
│ │
│ 论文名言:"Attention Is All You Need" │
│ 所有主流大模型都基于Transformer │
│ │
│ 大模型三件套: │
│ 数据(教材) + 参数(知识点) + 训练(学习过程) │
│ 预训练(通识教育) → 微调(专业培训) │
└─────────────────────────────────────────────────┘
🔗 下一课预告
搞懂了Transformer这个"引擎",下一课我们来看看它驱动出来的"产品"------大语言模型。
ChatGPT、DeepSeek、文心一言、Kimi......这些你能叫出名的大语言模型,它们各自擅长什么?有什么区别?日常使用应该选哪个?
下一课:大语言模型与文本生成------让AI成为你的"全能写手"
好途工坊 · 好途相伴,前程无忧