swiglu

大模型学习笔记------Llama 3模型架构之RMS Norm与激活函数SwiGLU归一化模块是各个网络结构中必有得模块之一。Llama 3模型基于Transformer，Transformer中采用的归一化模块通常为层归一化Layer Norm（LN），如下图所示。而Llama模型采用LN的改进版RMS Norm。

【多模态大模型】LLaMA in arXiv 2023论文： LLaMA: Open and Efficient Foundation Language Models 作者： Meta AI 代码： LLaMA 特点：该方法在Transformer的基础上增加了Pre-normalization (RMSNorm)、SwiGLU activation function (SwiGLU)、Rotary Embeddings (RoPE)、FlashAttention。

我是有底线的