技术栈
rmsnorm
nju_spy
4 天前
人工智能
·
pytorch
·
深度学习
·
大模型
·
多头注意力
·
rmsnorm
·
位置掩码
南京大学 LLM开发基础(二)大语言模型解析 -- 基于HF LlaMA实现的讲解
https://njudeepengine.github.io/llm-course-lecture/2025/lecture4.html#1
自信的小螺丝钉
22 天前
人工智能
·
pytorch
·
python
·
归一化
·
rmsnorm
·
layernorm
【大模型手撕】pytorch实现LayerNorm, RMSNorm
LayerNorm介绍请参考:【AI知识】归一化、批量归一化 、 层归一化 和 实例归一化RMSNorm介绍请参考:【大模型知识点】RMSNorm(Root Mean Square Normalization)均方根归一化
Fulin_Gao
1 年前
llama
·
原理
·
代码
·
rope
·
rmsnorm
·
swiglu
·
flashattention
【多模态大模型】LLaMA in arXiv 2023
论文: LLaMA: Open and Efficient Foundation Language Models 作者: Meta AI 代码: LLaMA 特点: 该方法在Transformer的基础上增加了Pre-normalization (RMSNorm)、SwiGLU activation function (SwiGLU)、Rotary Embeddings (RoPE)、FlashAttention。
西西弗Sisyphus
1 年前
llama
·
rmsnorm
·
norm
·
batchnorm
·
layernorm
Meta Llama 3 RMSNorm(Root Mean Square Layer Normalization)
flyfish展示计算的方向在二维的情况 下,BatchNorm是按列算,LayerNorm按行算具体步骤如下:
我是有底线的