task03深入大模型架构

资料地址:https://datawhalechina.github.io/base-llm/#/chapter6/17_handcraft_llama2

Llama2

Llama2是meta ai推出的开源大模型,本节理解其内部的工作原理

Llama2架构总览

Llama2遵循GPT系列开创的Decoder-Only架构,完全由Transformer解码器堆叠而成,天然适用于自回归文本任务

Llama2的核心由N个相同的Transformer Block堆叠而成

Block内部数据流:

预归一化(Pre-Normalization)在进入注意力层和前馈网络之前,会先经过一次RMS Norm,这被认为是提升大模型训练稳定性的关键

组件:使用Grouped-Query Attention(GQA),前馈网络采用SwiGLU,归一化使用RMSNorm

旋转位置编码(RoPE),位置信息在注意力层内部,通过RoPE操作动态施加于Q(查询)和K(键)向量上

残差连接:每个子层(注意力层和前馈网络)的输出都通过残差连接与子层的输入相加,保留了原始信息流

!\[Pasted image 20260120234201.png]

与原始transformer相比,Llama2及其同类模型进行改进提升性能和训练稳定性:

输入嵌入:将token_ids转换为词向量

N × Transformer层堆叠:数据依次通过N个相同的Transformer Block,每个Block包括预归一化、注意力子系统、前馈网络子系统

最终归一化与输出:所有层之后,进行最后一次RMSNorm,并通过一个线性层将特征映射到词汇表logits

Llama2关键组件

预归一化

Llama2简化归一化过程:

移除均值中心化:只通过输入的均方根对其进行缩放

保留可学习增益:用于在归一化后恢复模型的表达能力

相关推荐
测试员周周1 分钟前
【AI测试智能体-面试】AI测试面试60题(附回答思路)
人工智能·python·功能测试·测试工具·单元测试·自动化·测试用例
ShyanZh28 分钟前
【skill】Humanizer-zh:24条规则消灭AI写作痕迹
人工智能·ai写作·skill
电商软件开发 小银31 分钟前
思域不再安全?AI+独立APP破局指南
人工智能·软件开发·数字化转型·商业模式·超级app·商业思维·ai 矩阵运营
asyxchenchong88836 分钟前
最新Hermes Agent 技能封装与科研自动化:以 Meta-Analysis 为例-实现从文献检索到绘图的一站式工作流
运维·人工智能·自动化
武子康37 分钟前
调查研究-168 MiroFish 本地化部署分析:主仓库、Zep Cloud、离线 Fork 与真正可控的多智能体沙盘
人工智能·aigc·openai
诗词在线42 分钟前
求推荐飞花令
大数据·人工智能·python
云烟成雨TD1 小时前
Spring AI 1.x 系列【47】 MCP Annotations 模块
java·人工智能·spring
心枢AI研习社1 小时前
我问了claude目前最强大的模型fable 5这个问题?
人工智能·agent·claude
湘美书院--湘美谈教育1 小时前
湘美谈教育AI系列经验集锦:赋能整理聊斋志异大寓言
大数据·人工智能·深度学习·神经网络·机器学习
宜昌未来智慧谷1 小时前
WWDC 2026开发者视角解读:Siri独立App的技术架构与第三方AI模型接入机制
人工智能·架构·apple·wwdc·gemini