Transformer 22. Gemma 1 架构详解:Decoder-only、GeGLU、RoPE 与每一步计算摘要:本文在 Decoder Only Transformer 与 LLaMA 架构 的统一框架下,系统介绍 Gemma 1(2B / 7B) 的架构与每一步的矩阵维度与运算。内容包括:Gemma 1 的定位(与 Gemini 技术同源的开源 Decoder-only 文本模型)、从文本到解码器的数据流(SentencePiece 词表、嵌入、无在嵌入上相加的绝对位置向量)、单层 Decoder 内的 Pre-Norm + RMSNorm、带掩码自注意力(7B 为 MHA,2B 为 MQA)与 RoPE、