一、文档学习目标
-
区分大模型开源与闭源生态的核心差异
-
掌握LLM三大主流架构及衍生架构(MoE)的核心逻辑
-
深入理解BERT、GPT、T5、Mixtral等代表模型的架构创新与适用场景
-
明晰Transformer核心组件的作用及前沿演进
二、架构基石:Transformer的革命性突破
Google Brain 2017年论文《Attention Is All You Need》提出的Transformer架构,彻底重构了NLP领域,其核心是自注意力机制。
1. 核心创新:自注意力机制
作用:让模型处理文本时,同时关注所有词语并计算相互重要性权重,实现"全局视野",解决了RNN/LSTM难以捕捉长距离依赖的痛点(如"主语-谓语"跨句关联)。
2. 两大核心模块:编码器与解码器
| 模块 | 核心功能 | 代表模型 | 适用任务 |
|---|---|---|---|
| 编码器(Encoder) | "阅读+理解"输入文本,转化为含上下文的向量 | BERT | 语言理解(分类、情感分析、提取式问答) |
| 解码器(Decoder) | "生成"文本,根据已生成内容预测下一个词 | GPT系列 | 文本生成(对话、续写、摘要) |
三、大模型生态:开源VS闭源的博弈
Transformer的技术内核之外,商业模式与社区生态决定了技术渗透速度,两大模式核心差异如下:
| 维度 | 闭源生态 | 开源生态 |
|---|---|---|
| 核心优势 | 顶尖性能、稳定服务,定义能力天花板 | 低门槛、高灵活,赋能中小企业与研究者 |
| 代表模型/产品 | GPT系列、Claude、Grok | Llama系列、Mixtral、DeepSeek |
| 商业定位 | 主导高端商业应用市场(API服务、付费产品) | 推动技术普惠,支撑二次开发与场景定制 |
四、主流架构全景:四类核心范式解析
LLM核心分为自编码、自回归、序列到序列三类基础架构,及Decoder-MoE衍生架构,其核心差异体现在"编码器/解码器使用方式"上。
1. 自编码模型(AutoEncoder, AE):理解任务的王者
核心标签:Encoder-Only、双向理解、Mask预测
代表模型:BERT(2018年Google提出)
-
名称含义:Bidirectional Encoder Representation from Transformers(基于Transformer的双向编码器表示)
-
核心创新:
双向Transformer:仅用编码器,同时捕捉左右上下文
-
预训练任务:掩码语言模型(MLM,随机遮词预测)+下一句预测(NSP)
关键成绩:SQuAD1.1超越人类,11项NLP任务创SOTA
优缺点:
优点:语言理解能力极强
缺点:预训练的[MASK]符号与微调脱节;不擅长生成任务
2. 自回归模型(Autoregressive, AR):生成任务的核心
核心标签:Decoder-Only、单向生成、逐词预测
代表模型:GPT系列(2018年OpenAI提出)
-
核心创新:
仅用解码器:简化Transformer Decoder,移除encoder-decoder注意力层
-
预训练方式:单向语言模型(用上文预测下一词)
优缺点:
优点:长文本生成能力强,并行化效率高于RNN;12项任务中9项超SOTA
缺点:无法利用双向上下文;不同任务需单独微调
3. 序列到序列模型(Encoder-Decoder):多任务通用框架
核心标签:Encoder+Decoder、任务统一、转换生成
代表模型:T5(2020年Google提出)
-
核心创新:
任务统一:将所有NLP任务转化为"文本到文本"(如翻译加前缀"translate English to German")
-
架构优化:简化Layer Norm(去bias)、采用相对位置编码(动态计算词距分数)
优缺点:
优点:适配多任务,可扩展性强;参数更少、训练更快
缺点:训练需大量计算资源;可解释性不足
4. 衍生架构:Decoder-MoE(混合专家模型):高效大模型方案
核心标签:Decoder+MoE、稀疏激活、高效扩展
代表模型:Mixtral 8x7B(Mistral AI开源)
-
核心创新:
MoE机制:将Feed-Forward层替换为8个"专家"(独立FFN),路由器动态选2个专家处理每个token
-
参数特性:总参47B,仅激活13B,兼顾性能与效率
关键优势:
性能卓越:MMLU、GSM8K等基准超Llama 2 70B,接近GPT-3.5
高效灵活:单GPU可运行,多语言能力强,支持32k长上下文
开源友好:Apache 2.0许可,社区二次开发成本低
五、前沿创新:Transformer核心组件演进(以AR架构为例)
1. 输入层:从文本到数字的转化
-
分词(Tokenization):用BPE(字节对编码)切分文本为Token,平衡词表大小与效率
-
嵌入(Embedding):将Token ID映射为高维向量(维度d_model),参数矩阵大小为(vocab_size, d_model)
参数演进趋势:Llama家族为例,d_model(信息带宽)与context_window(上下文长度)持续增长,如上下文长度从2k翻倍至128k。
2. 核心组件:位置编码(解决自注意力"无顺序"缺陷)
-
核心问题:自注意力并行处理序列,无法区分"你爱我"与"我爱你"的顺序差异
-
解决方案:注入位置信息,生成与嵌入向量同维度的位置编码向量,与词嵌入相加后输入模型
-
经典方式:绝对位置编码(APE),用正弦/余弦函数生成固定位置向量
六、核心总结:架构选择的关键逻辑
| 架构类型 | 核心模块 | 代表模型 | 核心场景 | 关键亮点 |
|---|---|---|---|---|
| 自编码 | 仅编码器 | BERT | 语言理解 | 双向上下文捕捉 |
| 自回归 | 仅解码器 | GPT系列 | 文本生成 | 长序列生成能力强 |
| 序列到序列 | 编码器+解码器 | T5 | 多任务转换 | 任务统一框架 |
| Decoder-MoE | 解码器+MoE | Mixtral | 高效大模型应用 | 稀疏激活+高性能 |
架构选择本质是"任务需求匹配":理解选AE、生成选AR、多任务选Encoder-Decoder、大参高效选MoE。