《大模型的结构》

小苑同学2026-04-29 12:21

一、大模型整体结构

一个大模型其实就是：

文本 -> tokenizer(分词器) -> embedding（变成向量） -> Transformer（核心大脑） -> 输出

比如输入：This Paper is interesting

"This" , "paper" , "is" , "interest" , "ing"

再变成Token ID（每个大模型的Token ID是不一样的）：

101,2023,20021,...

模型不会直接用数字ID，会变成"向量"（一小串数字）：101 -> [0.12, -0.98, 0.33, ...]

可以简单的理解为：token -> 坐标点（语义空间）

这是大模型最重要的部分，它让每个词互相理解对方
核心机制： Self-Attention(自注意力)

比如：The paper is not good，模型会学"good"要注意"not"，"paper"和"good"有关系，所以每个token都会看其他token

**Transformer结构：**一个Transformer层大概是：Self-Attention -> Feed Forward（小神经网络） -> 重复很多层（比如12层/32层/96层）

GPT-4这种，几十到上百层Transformer

不同模型输出不同：
GPT（生成模型）： 输入：This paper is 输出：interesting

**BERT（分类模型）**输入：This paper is interesting 输出：accept / reject

文本

↓

tokenizer

↓

token IDs

↓

embedding（变向量）

↓

Transformer（理解语义）

↓

输出（预测 / 生成）

把它想成一个"超级读书人"：

1、tokenizer -> 切词

2、embeding -> 理解词的含义

3、attention -> 看上下文

4、多层网络 -> 深度思考

5、输出 -> 给答案