技术栈

swiglu

gz7seven
2 个月前
llama·激活函数·归一化·llama3·swiglu·rms norm
大模型学习笔记------Llama 3模型架构之RMS Norm与激活函数SwiGLU归一化模块是各个网络结构中必有得模块之一。Llama 3模型基于Transformer,Transformer中采用的归一化模块通常为层归一化Layer Norm(LN),如下图所示。而Llama模型采用LN的改进版RMS Norm。
Fulin_Gao
9 个月前
llama·原理·代码·rope·rmsnorm·swiglu·flashattention
【多模态大模型】LLaMA in arXiv 2023论文: LLaMA: Open and Efficient Foundation Language Models 作者: Meta AI 代码: LLaMA 特点: 该方法在Transformer的基础上增加了Pre-normalization (RMSNorm)、SwiGLU activation function (SwiGLU)、Rotary Embeddings (RoPE)、FlashAttention。