技术栈
swiglu
gz7seven
22 天前
llama
·
激活函数
·
归一化
·
llama3
·
swiglu
·
rms norm
大模型学习笔记------Llama 3模型架构之RMS Norm与激活函数SwiGLU
归一化模块是各个网络结构中必有得模块之一。Llama 3模型基于Transformer,Transformer中采用的归一化模块通常为层归一化Layer Norm(LN),如下图所示。而Llama模型采用LN的改进版RMS Norm。
Fulin_Gao
8 个月前
llama
·
原理
·
代码
·
rope
·
rmsnorm
·
swiglu
·
flashattention
【多模态大模型】LLaMA in arXiv 2023
论文: LLaMA: Open and Efficient Foundation Language Models 作者: Meta AI 代码: LLaMA 特点: 该方法在Transformer的基础上增加了Pre-normalization (RMSNorm)、SwiGLU activation function (SwiGLU)、Rotary Embeddings (RoPE)、FlashAttention。