技术栈

rmsnorm

nju_spy
4 天前
人工智能·pytorch·深度学习·大模型·多头注意力·rmsnorm·位置掩码
南京大学 LLM开发基础(二)大语言模型解析 -- 基于HF LlaMA实现的讲解https://njudeepengine.github.io/llm-course-lecture/2025/lecture4.html#1
自信的小螺丝钉
22 天前
人工智能·pytorch·python·归一化·rmsnorm·layernorm
【大模型手撕】pytorch实现LayerNorm, RMSNormLayerNorm介绍请参考:【AI知识】归一化、批量归一化 、 层归一化 和 实例归一化RMSNorm介绍请参考:【大模型知识点】RMSNorm(Root Mean Square Normalization)均方根归一化
Fulin_Gao
1 年前
llama·原理·代码·rope·rmsnorm·swiglu·flashattention
【多模态大模型】LLaMA in arXiv 2023论文: LLaMA: Open and Efficient Foundation Language Models 作者: Meta AI 代码: LLaMA 特点: 该方法在Transformer的基础上增加了Pre-normalization (RMSNorm)、SwiGLU activation function (SwiGLU)、Rotary Embeddings (RoPE)、FlashAttention。
西西弗Sisyphus
1 年前
llama·rmsnorm·norm·batchnorm·layernorm
Meta Llama 3 RMSNorm(Root Mean Square Layer Normalization)flyfish展示计算的方向在二维的情况 下,BatchNorm是按列算,LayerNorm按行算具体步骤如下:
我是有底线的