开源大模型LLaMA架构介绍

大模型相关目录

大模型，包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步，扬帆起航。

抛砖引玉，用最近获取的一些资料，介绍一些羊驼模型的技术点和发展历史。

• 以ChatGPT为代表的商业大模型不论是在效果上还是用户体验上都具有显著优势

• 然而，由于商业大模型的封闭性，使得整个模型属于"黑盒"，不利于开放透明的技术研究

• 学术界需要开源开放的大模型以供未来的技术探索与研究

Open and Efficient Foundation Language Models (Open但没完全Open的LLaMA)

• 2023年2月，Meta（原Facebook）推出了LLaMA大模型，使用了1.4T token进行训练

• 虽然最大模型只有65B，但在相关评测任务上的效果可以媲美甚至超过千亿级大模型

• 被认为是近期开源大模型百花齐放的开端之一，

"羊驼"系列模型及其生态快速发展

• 主干模型仍然是传统的transformer decoder结构

• 主要技术：Pre-normalization, SwiGLU activation, Rotary Embedding (RoPE)

• RMSNorm相比LayerNorm计算更加简单而且更有效，经常被用于大模型训练中

• LLaMA模型中的"norm"均使用了RMSNorm

• 谷歌提出的优化Transformer全连接层的新激活方法，在后续的PaLM等模型中也得到应用

• LLaMA中直接将FFN中的ReLU替换为SwiGLU，并将维度放缩为(2/3) ⋅ 4d

• 在GLUE、SQuAD上的实验结果表明，SwiGLU、ReGLU相比其他激活函数具有一定性能优势

• 基于Gating的方法普遍优于单纯的激活函数（ReLU/GELU/Swish等）

• 绝对位置编码

• GQA是一种提升推理速度的方法，主要针对多头注意力机制进行改进，与KV cache搭配使用