task03深入大模型架构

资料地址:https://datawhalechina.github.io/base-llm/#/chapter6/17_handcraft_llama2

Llama2

Llama2是meta ai推出的开源大模型,本节理解其内部的工作原理

Llama2架构总览

Llama2遵循GPT系列开创的Decoder-Only架构,完全由Transformer解码器堆叠而成,天然适用于自回归文本任务

Llama2的核心由N个相同的Transformer Block堆叠而成

Block内部数据流:

预归一化(Pre-Normalization)在进入注意力层和前馈网络之前,会先经过一次RMS Norm,这被认为是提升大模型训练稳定性的关键

组件:使用Grouped-Query Attention(GQA),前馈网络采用SwiGLU,归一化使用RMSNorm

旋转位置编码(RoPE),位置信息在注意力层内部,通过RoPE操作动态施加于Q(查询)和K(键)向量上

残差连接:每个子层(注意力层和前馈网络)的输出都通过残差连接与子层的输入相加,保留了原始信息流

![[Pasted image 20260120234201.png]]

与原始transformer相比,Llama2及其同类模型进行改进提升性能和训练稳定性:

输入嵌入:将token_ids转换为词向量

N × Transformer层堆叠:数据依次通过N个相同的Transformer Block,每个Block包括预归一化、注意力子系统、前馈网络子系统

最终归一化与输出:所有层之后,进行最后一次RMSNorm,并通过一个线性层将特征映射到词汇表logits

Llama2关键组件

预归一化

Llama2简化归一化过程:

移除均值中心化:只通过输入的均方根对其进行缩放

保留可学习增益:用于在归一化后恢复模型的表达能力

相关推荐
yumgpkpm2 小时前
AI校服识别算法的成本+规划
人工智能·算法
linmoo19862 小时前
Langchain4j 系列之二十七 - Ollama集成Deepseek
人工智能·langchain·ollama·deepseek·langchain4j
Deepoch2 小时前
Deepoc具身模型:智能炒菜机器人的技术底座
人工智能·科技·机器人·具身模型·deepoc·炒菜机器人·厨师
狐572 小时前
2026-01-19-论文阅读-SAM2-2
论文阅读·人工智能·计算机视觉
Data-Miner2 小时前
Excel-Agent永久买断,一款结合AI Agent的excel数据处理智能体
人工智能·excel
北京耐用通信2 小时前
耐达讯自动化Profibus总线光纤中继器在连接测距仪中的应用
人工智能·物联网·网络协议·网络安全·自动化·信息与通信
MoonBit月兔2 小时前
MoonBit 获日本最大技术社区Zenn原生支持,热度持续上升中!
人工智能·ai编程·moonbit
高频交易dragon2 小时前
配对交易策略大观
大数据·人工智能
我叫张土豆2 小时前
2026最强实战:用《三国演义》把 KAG(知识增强生成)跑通:LLM抽取知识图谱→Neo4j入库→召回评测→图谱问答闭环(附完整测试代码)
人工智能·知识图谱·neo4j