一、LLM的概念
- LLM 大型语言模型:Large Language Models
- 主流的开源模型体系都是基于 Transformer 架构:
- Encoder 在抽取序列中某一个词的特征时能够看到整个序列中所有的信息,即上文和下文同时看到 ;而 Decoder 中因为有 mask 机制的存在,使得它在编码某一个词的特征时只能看到自身和它之前的文本信息。
- Prefix/Causal LM:
- Prefix LM 前缀语言模型:
- Encoder和Decoder共享了同一个Transformer结构
- Encoder:AE-自编码 前缀序列中任意两个token都相互可见
Auto Encoding - Decoder:AR-自回归 待生成的token可以看到Encoder侧所有token(包括上下文)和Decoder侧已经生成的token,但不能看未来尚未产生的token
- Causal LM 因果语言模型:
- Decoder:Auto Regressive 自回归
- GPT
- Prefix LM 前缀语言模型:
- 训练目标:最大化模型生成训练数据中观察到的文本序列的概率
- 最大似然估计 MLE
- 涌现能力:模型在训练过程中能够生成出令人惊喜、创造性和新颖的内容或行为
- Decoder only结构
- Encoder的双向注意力 存在低秩问题,削弱模型表达能力
- 更好的Zero-Shot性能、更适合于大语料自监督学习
- 效率:decoder-only支持一直复用KV-Cache,多轮对话更友好,每个Token的表示和之前输入有关
- LLMs复读机问题:依赖输入文本的复制
- 解决: 多样性训练数据、引入噪声、温度参数调整、Beam搜索调整、后处理和过滤、人工干预
- Bert
通用、LLaMA英文、ChatGLM中英文适用场景 - 让大模型处理更长的文本解决方法:
- 分块、层次建模
文本分为段落、句子或子句、部分生成模型生成文本的一部分、引入注意力机制、模型结构优化结构、参数
- 分块、层次建模