八股-大语言模型基础

温九味闻醉2026-06-06 15:05

一、LLM的概念

LLM 大型语言模型：Large Language Models
主流的开源模型体系都是基于 Transformer 架构：
- Encoder 在抽取序列中某一个词的特征时能够看到整个序列中所有的信息，即上文和下文同时看到 ；而 Decoder 中因为有 mask 机制的存在，使得它在编码某一个词的特征时只能看到自身和它之前的文本信息。
Prefix/Causal LM：
- Prefix LM 前缀语言模型：
  - Encoder和Decoder共享了同一个Transformer结构
  - Encoder：AE-自编码前缀序列中任意两个token都相互可见Auto Encoding
  - Decoder：AR-自回归待生成的token可以看到Encoder侧所有token(包括上下文)和Decoder侧已经生成的token，但不能看未来尚未产生的token
- Causal LM 因果语言模型：
  - Decoder：Auto Regressive 自回归
  - GPT
训练目标：最大化模型生成训练数据中观察到的文本序列的概率
- 最大似然估计 MLE
涌现能力：模型在训练过程中能够生成出令人惊喜、创造性和新颖的内容或行为
Decoder only结构
- Encoder的双向注意力 存在低秩问题，削弱模型表达能力
- 更好的Zero-Shot性能、更适合于大语料自监督学习
- 效率：decoder-only支持一直复用KV-Cache，多轮对话更友好，每个Token的表示和之前输入有关
LLMs复读机问题：依赖输入文本的复制
- 解决：多样性训练数据、引入噪声、温度参数调整、Beam搜索调整、后处理和过滤、人工干预
Bert通用、LLaMA英文、ChatGLM中英文适用场景
让大模型处理更长的文本解决方法：
- 分块、层次建模文本分为段落、句子或子句、部分生成模型生成文本的一部分、引入注意力机制、模型结构优化结构、参数