大语言模型技术指南:Transformer 为什么能成为基础架构?核心模块与参数怎么理解

大语言模型技术指南:Transformer 为什么能成为基础架构?核心模块与参数怎么理解

前一篇我们先把大语言模型、视觉语言模型和多模态系统的整体地图搭起来了。

如果把那篇当成"先看全景",那这一篇就要正式进入地基部分。

因为你会发现,不管今天外面有多少模型名:

  • Llama
  • Qwen
  • Mistral
  • DeepSeek
  • GPT 系列
  • 以及很多视觉语言模型背后的语言骨架

往下追,基本都绕不开同一个核心词:

Transformer。

很多人知道它重要,但真正一问:

  • Transformer 到底解决了什么问题?
  • 它为什么能替代 RNN、LSTM,成为大模型时代的基础架构?
  • self-attention 到底在"算什么"?
  • 层数、隐藏维度、注意力头数这些参数,工程上分别意味着什么?
  • 为什么上下文一长,推理成本就会迅速变高?

就容易开始模糊。

所以这一篇我不准备把你扔进一堆公式里,而是想把 Transformer 最值得真正理解的几件事讲透:

  1. 它到底是在解决什么老问题
  2. self-attention 为什么会成为核心机制
  3. 一个 Transformer block 里到底有哪些关键模块
  4. 层数、hidden size、head 数、FFN size 这些参数分别影响什么
  5. 从训练到推理,Transformer 的成本为什么会变得这么敏感
  6. 到了部署阶段,哪些地方最容易成为瓶颈

如果这篇吃透,后面再学预训练、长上下文、KV cache、LoRA / QLoRA、VLM 里的视觉 token 接入,你会顺很多。

一、先别急着背结构,先看 Transformer 到底替代了谁

Transformer 出现之前,序列建模主流长期是 RNN、LSTM、GRU 这条线。

它们的基本思路是:

  • 输入一个 token
  • 更新一次隐藏状态
  • 再把状态传给下一个时间步

这种方式很符合"时间序列"的直觉。

问题也很明显。

1)计算天然是串行的

因为后一个时间步要依赖前一个时间步的状态,所以训练和推理都不容易并行。

2)长距离依赖不好学

理论上 LSTM 比普通 RNN 更能保留长期信息,但实际上当序列很长时,模型仍然容易出现:

  • 远处信息传不过来
  • 重要信息被中间过程逐步冲淡
  • 训练变难,优化不稳定

3)通用性不够强

RNN 更像一种"按顺序滚动"的架构,而 Transformer 后来之所以厉害,在于它更像一种通用 token 交互框架。

所以 Transformer 真正改变的,不只是"效果更好",而是它把序列建模改造成了一种更适合大规模并行训练、也更适合通用模态接入的基础结构。

二、Transformer 最核心的一步:让 token 彼此直接看见对方

如果你只记一句话,我希望你记这句:

Transformer 的核心,是让当前 token 可以直接和上下文里其他 token 建立关联,而不是只能一跳一跳地传递信息。

这件事靠的就是 self-attention。

在传统 RNN 里,如果第 1 个词和第 80 个词之间有关联,中间要经过很多步状态传播。

而在 Transformer 里,第 80 个词可以直接去"看"第 1 个词,以及整段上下文里所有其他词。

这带来两个巨大变化:

  • 信息路径变短
  • 相关性建模更直接

所以 attention 的本质,不是"花哨权重",而是让模型动态决定:当前处理这个位置时,整段上下文里哪些地方最值得参考。

三、self-attention 到底在做什么?

很多人一看到 Q、K、V 就开始头大。

其实先别把它想得太玄。

你可以把 self-attention 先粗略理解成下面这件事:

当前 token 在问三个问题:

  1. 我在找什么信息? → Query
  2. 别人各自拥有什么信息特征? → Key
  3. 如果我决定关注它,我到底拿走它的什么内容? → Value

也就是说:

  • Query 像是当前 token 的"检索需求"
  • Key 像是每个 token 的"索引标签"
  • Value 像是每个 token 真正可被聚合的内容

当当前 token 的 Query 和其他 token 的 Key 越匹配,说明它们越相关,模型就会给那个位置更高权重,并把对应的 Value 更多地加进来。

所以 attention 不是简单"平均看所有词",而是在做一种内容相关的加权聚合。

四、为什么叫 multi-head attention?"多头"到底有啥用?

如果只有一套 attention,模型每次只能用一种方式去理解上下文关系。

但现实语言关系很复杂:

  • 有些头更容易关注语法依赖
  • 有些头更容易关注主谓宾结构
  • 有些头更容易关注远距离实体指代
  • 有些头更容易捕捉局部模式或重复模式

所以 Transformer 不只做一次 attention,而是并行做多次,每次使用不同的投影空间。

这就是 multi-head attention。

直觉上可以理解为:让模型从多个"观察角度"同时看上下文。

五、一个 Transformer block 里到底有什么

如果你把一个典型 Transformer block 拆开,最核心一般就三层理解:

  1. attention 子层
  2. 前馈网络(FFN)子层
  3. 残差连接 + 归一化

六、第一部分:attention 子层负责"信息交互"

attention 子层最主要的工作,是让每个 token 和其他 token 发生信息交换。

你可以把它理解成:这一层先决定,当前位置应该从上下文哪里取信息。

在因果语言模型里,这里还要加上 mask,保证当前位置只能看见自己和前面的 token,不能偷看未来答案。

七、第二部分:FFN 负责"位置内变换"

很多初学者容易把 attention 看成全部,但其实 FFN 也非常重要。

attention 更像是在做 token 之间的信息交换;FFN 更像是在每个 token 自己的位置上做更深的非线性变换。

可以粗略理解成:

  • attention:先把别处有用的信息搬过来
  • FFN:再在当前位置把这些信息加工一遍

八、第三部分:残差连接和 LayerNorm 为什么这么关键

如果没有残差连接,深层网络训练会困难很多。

残差连接的直觉作用是:让每一层不是从头重写表示,而是在原表示基础上做增量修改。

而 LayerNorm 的作用,是帮助不同层、不同位置的数值分布保持相对稳定,减少训练过程中的数值漂移。

所以真正成熟的理解不是"Transformer = attention",而是:

Transformer = attention 负责全局交互 + FFN 负责局部变换 + 残差/归一化负责稳定训练。

九、位置编码为什么必不可少

attention 自己有一个天然问题:它本身如果只看 token 集合,并不知道顺序。

所以模型需要额外机制来感知:

  • 哪个词在前
  • 哪个词在后
  • 相对距离大概多远

这就是位置编码存在的原因。

早期有绝对位置编码,后面很多 LLM 更常用的是 RoPE。

你现在先不用急着吃透细节,但要先记住:没有位置信息,Transformer 很难真正理解序列结构。

十、几个最关键的模型参数,到底分别在影响什么

最核心的先抓这几个:

  • 层数(num layers)
  • 隐藏维度(hidden size)
  • 注意力头数(num heads)
  • FFN 中间维度(intermediate size)
  • 上下文长度(context length)

十一、层数:决定"计算深度"和表达层级

层数越多,模型就越能逐层抽取更复杂的表示。

带来的变化包括:

  • 表示能力增强
  • 训练难度增大
  • 推理延迟增加
  • KV cache 层数同步增加

十二、hidden size:决定主表示通道有多宽

hidden size 大致决定每个 token 在主干表示里有多宽的向量空间。

它越大,模型每个位置能承载的信息容量越高;但参数量、计算量、显存开销也会明显增加。

十三、num heads:决定注意力被拆成多少个并行视角

头数的意义是让模型从多个子空间并行看上下文。

但它不是越多越好。

如果 hidden size 不变,头数越多,每个头的维度就越小;头太多可能反而让单头表示能力不足。

十四、FFN intermediate size:决定每层内部变换容量

这个参数常常被忽略,但其实非常重要。

FFN 一般会把 hidden size 扩展到更大的中间维度,再投回去。

所以 intermediate size 越大,通常意味着:

  • 每层局部非线性变换更强
  • 参数量显著增加
  • 计算量也会上升

十五、context length:决定一次能看多长,但也会迅速推高成本

上下文长度变长意味着:

  • 可以塞更多历史对话
  • 可以放更多检索片段
  • 可以做更长文档处理
  • 多图多模态任务里也能容纳更多 token

但与此同时,attention 成本会随着序列长度显著上升。

这就是为什么超长上下文从来不是免费午餐。

十六、Transformer 为什么训练时和推理时表现得像两种不同动物

训练时通常可以并行处理整段序列;

推理时尤其是自回归生成,要先 prefill,再一个 token 一个 token 地 decode,所以天然更串行。

这也是为什么模型在线服务时经常卡在:

  • TTFT 太高
  • decode 太慢
  • 并发一多就掉速

十七、为什么说 attention 是能力核心,也是成本核心

attention 给了模型强大的上下文建模能力;同时它也是长序列成本爆炸的根源之一。

所以后面你会看到很多优化几乎都围着 attention 在转:

  • FlashAttention
  • GQA / MQA
  • 滑窗注意力
  • 稀疏注意力
  • KV cache 优化
  • 长上下文外推技巧

十八、到部署阶段,哪些参数最该盯紧

如果从服务部署角度,我建议你重点盯:

  • 模型规模与显存占用
  • context length 与真实请求长度分布
  • TTFT 和 decode speed
  • KV cache 开销
  • 量化后的精度变化

十九、如果你把 Transformer 学成"公式题",后面会很难用起来

更有用的理解应该是:

  • attention 负责跨位置找相关信息
  • FFN 负责在当前位置做深加工
  • residual + norm 负责把深层训练稳住
  • position encoding 负责把顺序信息带进来
  • layer / hidden / heads / FFN size 共同决定能力与成本

二十、最后总结:Transformer 之所以成为基础架构,不只是因为"效果好"

如果只用一句话概括这篇,我会说:

Transformer 成为基础架构,不只是因为它在论文上更强,而是因为它同时满足了表达能力、并行训练能力和通用模态扩展能力。

你这篇真正应该带走的,是下面这几个核心认识:

1)它替代 RNN,不只是因为新,而是因为更适合大规模并行和长距离建模

2)self-attention 的本质,是让每个 token 动态决定自己该关注上下文中的哪些位置

3)一个 Transformer block 不只有 attention,FFN、残差连接、LayerNorm 同样关键

4)层数、hidden size、头数、FFN size、context length,不是抽象数字,而是能力与成本的共同账本

5)attention 既是 Transformer 的能力核心,也是长上下文时代最大的成本核心之一

相关推荐
gorgeous(๑>؂<๑)2 小时前
【CVPR26-韩国科学技术院】令牌扭曲技术助力多模态大语言模型从邻近视角观察场景
人工智能·语言模型·自然语言处理
AC赳赳老秦2 小时前
OpenClaw email技能:批量发送邮件、自动回复,高效处理工作邮件
运维·人工智能·python·django·自动化·deepseek·openclaw
用户7824520807792 小时前
一些容易混淆的点(个人记录)
人工智能
胡志辉2 小时前
OpenClaw 教程:新 Mac 从 0 配到国产 AI、飞书微信和无人值守
人工智能·神经网络
机器之心3 小时前
全球第一,13个SOTA!我们找到了龙虾界掌管GUI的神
人工智能·openai
AI问答工程师3 小时前
Meta Muse Spark 的"思维压缩"到底是什么?我用 Python 复现了核心思路(附代码)
人工智能·python
机器之心3 小时前
大佬深度解析:Coding Agent的底层运行逻辑是什么?
人工智能·openai
爱吃的小肥羊3 小时前
Claude降智再被实锤!推理能力严重下滑,用户连夜跑路 Codex
人工智能·aigc·openai
Rabbit_QL3 小时前
【理论分析】信息熵的极值问题:什么时候最小?什么时候最大?
人工智能·深度学习