LLaMa介绍
LLaMa是基于transformer encoder的生成式模型。
目前有:LLAMA, LLAMA2, LLAMA3 三个大的版本
论文
LLAMA 2: Open Foundation and Fine-Tuned Chat Models: https://arxiv.org/pdf/2307.09288
LLAMA 3: The Llama 3 Herd of Models https://arxiv.org/pdf/2407.21783
模型:

主要创新
-
Pre-Normalization(Pre-Norm,层前归一化)
-
RMSNorm(Root Mean Square Layer Normalization,均方根层归一化):
-
旋转位置编码(RoPE)
-
稀疏注意力(Sparse Attention)
-
SwiGLU激活函数:
-
grouped-query attention (GQA)
-
长上下文:
训练

LLAMA 7B训练18万+小时