第06课:Transformer与注意力机制——大模型背后的秘密武器

📌 本课学习目标

学完这节课,你能搞明白以下问题:

  1. 大模型为什么能理解人话?底层靠的是什么技术?
  2. "注意力机制"到底在干什么?为什么叫"注意力"?
  3. Transformer为什么被称为AI界的"大一统架构"?
  4. "数据-参数-训练"这三件套是什么关系?大模型到底是怎么训练出来的?

🤔 课前思考

上节课我们说大模型可以有几千亿个参数,读了几乎全人类的所有文字,但你有没有想过一个问题:

人读一句话的时候,会自动区分重点。比如"我昨天在北京参加了人工智能大会"这句话,你的大脑会自动把"北京""人工智能大会"当作关键信息,而"昨天""参加了"只是辅助信息。

但以前的AI做不做得到?答案是:做不到!在2017年之前,AI处理语言的方式就像是一个"逐字朗读"的机器,一个字一个字地读,读到后面就忘了前面。

2017年,Google的一篇论文改变了这一切。这篇论文提出的架构叫Transformer,它让AI终于学会了"聚焦重点"。

这节课,我们就来把这个大模型背后的秘密武器拆解清楚。


一、Transformer之前:AI的"阅读障碍"

在Transformer出现之前,AI处理语言主要是靠一种叫**RNN(循环神经网络)**的技术。

RNN的工作方式很简单:一个字一个字地读

复制代码
输入:"小明买了苹果,他吃了它"

RNN的阅读过程:
读"小" → 记住"小" → 读"明" → 记住"小明" → 读"买" → 记住"小明买"
→ 读"了" → 读"苹" → 读"果" → ... → 读到"它"的时候
→ 前面"苹果"的记忆已经模糊了 → 搞不清"它"指什么

这就像你读一本500页的书,只能一个字一个字地读,读完第500页的时候,第1页写了什么你几乎全忘了。

RNN有两个致命的问题:

问题 具体表现 后果
长程遗忘 句子一长,就记不住前面的内容 "它"是指苹果还是小明?AI搞不清
串行处理 必须逐字处理,不能同时处理多个字 训练速度极慢,数据多了根本跑不完

这俩问题严重限制了AI处理语言的能力,直到2017年,Transformer出现了。


二、注意力机制:让AI学会"聚焦重点"

2.1 先理解人类的"注意力"

想象你在嘈杂的餐厅里跟朋友聊天,周围有吵闹的小孩、服务员喊菜、隔壁桌在大笑,但你依然能自动"过滤"掉噪音,聚焦到朋友说的话上

这就是人类的"注意力":在大量信息中,自动锁定最重要的部分。

阅读也是一样,来看这句话:"我今天去银行 取了五千块现金 ,路上差点被一辆快递车撞到。"你大脑自动关注的是加粗的部分,"今天""了""路上"这些词你几乎不会特意去想。

2.2 AI的注意力:让每个词都能"看到"所有其他的词

Transformer的核心创新就是自注意力机制(Self-Attention)

它的原理用一句话概括就是:让句子里的每一个词,都能直接"看到"并评估与所有其他词的关联程度。

回到经典例子:"小明买了苹果,他吃了它"

复制代码
当AI处理"它"这个字时:
"它"和"小明"的关联度:0.2(低,"他"已经指代了小明)
"它"和"买了"的关联度:0.3(中,"买了"是个动作)
"它"和"苹果"的关联度:0.8(高!"吃了"的东西通常就是"买了"的东西)
"它"和"他"的关联度:0.1(低)

→ AI判断:"它"最可能指的是"苹果" ✓

你看,AI并不需要"逐字阅读",它能同时看到整个句子里的所有词,然后自动判断哪些词之间的关联程度最强。

类比一下:RNN像一个人蒙着眼睛、只能摸着墙一步步往前走;Transformer则像是一个人站在高处,能一眼看到整条路的全部情况。当然后者走得更快、判断更准。

2.3 为什么叫"注意力"?

因为这种机制模拟了人类注意力的行为,在众多的信息中,自动"分配注意力"给最重要的信息。

"它"这个词在分析时,把最多的"注意力"分配给了"苹果",所以判断"它"是指苹果。这跟你在餐厅里自动"聚焦"朋友声音的基本原理是一样的。


三、Transformer架构:四个核心部件

Transformer不是一个单一的技术,而是由几个部件组合而成的架构,我用通俗的方式给大家逐个拆解。

部件一:自注意力机制(Self-Attention)

上面我已经讲过,让每个词都能看到所有其他的词,自动判断关联度。

这是Transformer的灵魂。

部件二:位置编码(Positional Encoding)

有个问题:Transformer是同时处理所有词的,那它怎么知道每个词的先后顺序?

比如"狗咬人"和"人咬狗",词完全一样,但意思完全不同。

解决方案:是给每个词加一个"位置标签"。

复制代码
"狗咬人":
"狗" → 位置1  "咬" → 位置2  "人" → 位置3

"人咬狗":
"人" → 位置1  "咬" → 位置2  "狗" → 位置3

类比:就像排队的时候给每个人发一个号码牌,虽然大家都同时站在队里,但一看号码就知道谁先来谁后到。

部件三:多头注意力(Multi-Head Attention)

"多头"是什么意思?就是同时从多个角度分析语义

举个例子:"我要去银行"这句话------

  • 角度1(语法角度):"我"是主语,"去"是动词,"银行"是名词
  • 角度2(语义角度):"银行"和"去"有很强的动作关联
  • 角度3(场景角度):如果上下文提到了"取钱","银行"就更可能是金融机构

单个注意力机制只能从一个角度分析,多头注意力能同时从多个角度分析,理解自然更全面、更准确。

类比 :一个人看一幅画,只从一个角度看可能觉得一般;换5个角度分别看,就能全面欣赏这幅画的美。多头注意力就是让AI同时从多个"视角"理解一句话

部件四:前馈网络(Feed-Forward) + 层叠结构

Transformer不是一层的,而是把注意力机制和前馈网络叠了很多层

复制代码
输入文字
  → 第1层:注意力 + 前馈(提取基础的语法关系)
  → 第2层:注意力 + 前馈(提取短语的含义)
  → 第3层:注意力 + 前馈(理解句子的整体意思)
  → ...(可能叠几十层甚至上百层)
  → 输出:对整段文字的深度理解

就像你读一篇文章,第一遍理解字面的意思,第二遍理解深层含义,第三遍形成自己的观点,Transformer的每一层都是在做类似的"逐步深化理解"。


四、Transformer为什么"大一统"了AI?

2017年的那篇论文

Google在2017年发表论文,标题非常霸气:"Attention Is All You Need"(注意力就是你需要的一切)

这个标题的意思是:我们不需要RNN、不需要CNN,光靠注意力机制就够了。

当时很多人不信,但后来的发展证明了这篇论文是对的。

从NLP到"万物皆可Transformer"

Transformer最初是为处理语言设计的,但后来科学家发现,它的架构极其通用:

年份 应用突破 说明
2018 GPT-1 第一个基于Transformer的生成式语言模型
2018 BERT 用Transformer做语言理解,刷新多项NLP纪录
2020 ViT 把Transformer用在图像识别上,效果媲美CNN
2021 DALL-E 用Transformer生成图像
2022 ChatGPT 基于Transformer的大语言模型引爆全球
2024 GPT-4o Transformer同时处理文字、图像、语音

从2017年到现在,几乎所有最强大的AI模型都是基于Transformer架构的。 这在AI历史上是前所未有的,一个架构"统一"了几乎所有的领域。

你听过的所有主流大模型,底层都是基于Transformer的:

复制代码
GPT系列(OpenAI)─────── Transformer
文心一言(百度)───────── Transformer
通义千问(阿里)───────── Transformer
DeepSeek(深度求索)──── Transformer
Kimi(月之暗面)───────── Transformer
豆包(字节跳动)───────── Transformer

五、"数据-参数-训练"三件套:大模型是怎么造出来的?

前面我们讲了很多Transformer的原理,但你可能还想知道:大模型具体是怎么训练出来的?

这个过程可以用三样东西来概括:数据、参数、训练

5.1 数据 = 教材

大模型的训练数据规模超乎你的想象:

  • 文本数据 :互联网上的书籍、文章、网页、论文、代码......总计可能达到几十TB的文字
  • 训练数据量 :一个大型语言模型的训练数据,相当于一个人读了几百万本书

数据越多,模型"见识"越广,知识面就越全。就像一个人读的书越多,聊天时能聊的话题就越多。

5.2 参数 = 知识点

上一课我们讲过,参数就是模型"学到的规律",这里我再展开讲一下训练过程中参数是怎么变化的:

复制代码
训练前(随机初始化):
  参数全是随机数 → 模型输出的全是乱码

训练过程中:
  模型看了一条数据 → 输出结果 → 对比标准答案 → 发现差距
  → 调整参数 → 下次输出更接近的标准答案
  → 重复这个过程几十亿次......

训练后:
  参数已经"记住"了数据中的规律 → 模型能输出合理的内容

类比:参数就像你脑子里的知识点,做了一万道数学题之后,你脑子里积累了大量的"解题规律",这些规律就是你的"参数"。参数越多,脑子越灵活,能记住的规律就越细。

5.3 训练 = 学习过程

大模型的训练分为两个阶段:

第一阶段:预训练(Pre-training)------"通识教育"

先让模型读海量的数据,学习语言的基本规律。这个阶段不教它做任何具体的任务,只让它"博览群书"。

复制代码
相当于:一个人从小学到高中,学习语文、数学、英语等各种基础知识
结果:模型拥有了广泛的语言知识,但还不能很好地"对话"

这个阶段非常昂贵,比如训练GPT-3据估计花费了几千万美元的算力成本。

第二阶段:微调(Fine-tuning)------"专业培训"

在预训练的基础上,继续用特定领域的数据进一步训练,让模型学会具体的任务。

复制代码
相当于:一个人高中毕业后,又去参加"客服培训班"或"写作培训班"
结果:模型学会了"如何好好对话"、"如何写文章"等具体技能

还有一个关键技术叫RLHF(基于人类反馈的强化学习),让人类给模型的回答打分,模型根据分数调整自己。这就像写作文时老师给你打分并写评语,你根据反馈来持续改进。

总结三件套的关系

  • 数据是"教材"------教材越好、越多,学出来的知识越扎实
  • 参数是"知识点"------通过反复学习积累在大脑里的规律
  • 训练是"学习过程"------预训练打基础,微调学专业

🏢 业务场景实战

场景一:搜索引擎为什么能理解你的真实意图?

你搜索"苹果多少钱",搜索引擎需要判断,你问的是水果苹果还是苹果手机?

传统搜索引擎只能靠关键词匹配,经常搞错,而基于Transformer的搜索引擎则能理解上下文:

复制代码
如果你最近搜索过"iPhone 16""手机壳" → "苹果"大概率指的是苹果手机
如果你最近搜索过"水果""维生素" → "苹果"大概率是指水果

Transformer的注意力机制,可以让搜索引擎自动分析"苹果"和前后搜索词的关联度,从而判断出真实的意图。

场景二:智能客服为什么能记住之前的对话?

用户问:"我的订单怎么了?"

客服:"好的,请问您的订单号是多少?"

用户:"123456"

客服:"查询到您的订单123456,目前显示已发货,预计明天到达。"

在多轮对话中,AI需要记住之前的对话内容。Transformer的自注意力机制,可以让每个词都能"看到"完整的对话历史,所以它知道用户说的"123456"就是订单号,而不是随便说的一串数字。


✅ 本课知识卡片

复制代码
┌─────────────────────────────────────────────────┐
│      第06课 · Transformer与注意力机制速查           │
├─────────────────────────────────────────────────┤
│ RNN的问题:长程遗忘 + 串行处理慢                    │
│                                                   │
│ 注意力机制 = 在大量信息中自动聚焦最重要的部分          │
│   类比:嘈杂餐厅里自动锁定朋友的声音                 │
│                                                   │
│ Transformer四大部件:                              │
│   自注意力(看全局)+ 位置编码(知顺序)             │
│   + 多头注意力(多角度) + 层叠结构(逐步深化)        │
│                                                   │
│ 论文名言:"Attention Is All You Need"              │
│ 所有主流大模型都基于Transformer                     │
│                                                   │
│ 大模型三件套:                                     │
│   数据(教材) + 参数(知识点) + 训练(学习过程)      │
│   预训练(通识教育) → 微调(专业培训)                │
└─────────────────────────────────────────────────┘

🔗 下一课预告

搞懂了Transformer这个"引擎",下一课我们来看看它驱动出来的"产品"------大语言模型。

ChatGPT、DeepSeek、文心一言、Kimi......这些你能叫出名的大语言模型,它们各自擅长什么?有什么区别?日常使用应该选哪个?

下一课:大语言模型与文本生成------让AI成为你的"全能写手"


好途工坊 · 好途相伴,前程无忧

相关推荐
landyjzlai1 小时前
蓝迪哥玩转Ai(10)---Harness工程说透1。
人工智能·harness
onething3651 小时前
Spring Boot + Spring AI 从入门到实战:7天转型计划 Day 3 —— 消息表设计 + 级联删除 + 事务管理
人工智能·后端
王某某人1 小时前
LangChain4j 入门:Java 程序员的第一个 AI 对话程序
人工智能·后端
海兰1 小时前
【实用程序】电商销售分析仪表盘 — 从零搭建一个AI参与的全栈数据洞察系统
人工智能·学习·算法
枫糖浆AI1 小时前
openclaw页面无法访问解决方法
人工智能
浩子coding2 小时前
通过 Spring AI Alibaba 源码,看如何玩转 ReAct 智能体范式
人工智能·后端
卡梅德生物科技小能手2 小时前
卡梅德生物科普CD124(IL-4Rα):2型免疫炎症的核心调控靶点
人工智能·经验分享·深度学习
垂钓的小鱼12 小时前
TRIZ理论是什么?萃智引擎如何将它变为工程师的AI创新助手
人工智能·microsoft
咋吃都不胖lyh2 小时前
DBSCAN(基于密度的空间聚类应用与噪声)算法
人工智能·机器学习