task03深入大模型架构

资料地址:https://datawhalechina.github.io/base-llm/#/chapter6/17_handcraft_llama2

Llama2

Llama2是meta ai推出的开源大模型,本节理解其内部的工作原理

Llama2架构总览

Llama2遵循GPT系列开创的Decoder-Only架构,完全由Transformer解码器堆叠而成,天然适用于自回归文本任务

Llama2的核心由N个相同的Transformer Block堆叠而成

Block内部数据流:

预归一化(Pre-Normalization)在进入注意力层和前馈网络之前,会先经过一次RMS Norm,这被认为是提升大模型训练稳定性的关键

组件:使用Grouped-Query Attention(GQA),前馈网络采用SwiGLU,归一化使用RMSNorm

旋转位置编码(RoPE),位置信息在注意力层内部,通过RoPE操作动态施加于Q(查询)和K(键)向量上

残差连接:每个子层(注意力层和前馈网络)的输出都通过残差连接与子层的输入相加,保留了原始信息流

![[Pasted image 20260120234201.png]]

与原始transformer相比,Llama2及其同类模型进行改进提升性能和训练稳定性:

输入嵌入:将token_ids转换为词向量

N × Transformer层堆叠:数据依次通过N个相同的Transformer Block,每个Block包括预归一化、注意力子系统、前馈网络子系统

最终归一化与输出:所有层之后,进行最后一次RMSNorm,并通过一个线性层将特征映射到词汇表logits

Llama2关键组件

预归一化

Llama2简化归一化过程:

移除均值中心化:只通过输入的均方根对其进行缩放

保留可学习增益:用于在归一化后恢复模型的表达能力

相关推荐
manduic5 分钟前
告别传统编码器痛点!麦歌恩MT6701,重构位置检测选型新逻辑
人工智能·重构·磁性角度传感器
ai大模型中转api测评8 分钟前
告别文字堆砌:Gemini 交互 API 赋能垂直领域,开发者如何重构用户认知?
人工智能·重构·交互·api
陌殇殇13 分钟前
002 Spring AI Alibaba框架整合百炼大模型平台 — 聊天、文生图、语音、向量模型整合
人工智能·spring·ai
南湖北漠15 分钟前
记录生活中的那些小事(佚名)
网络·人工智能·计算机网络·其他·安全·生活
清水白石00816 分钟前
《解锁 Python 潜能:从核心语法到 AI 服务层架构的工业级进阶与实战》
人工智能·python·架构
大连好光景19 分钟前
学会评估模型的拟合状态和泛化能力
人工智能·机器学习
老兵发新帖22 分钟前
Hermes:openclaw的最佳替代之基于源码部署的飞书配置
人工智能·飞书
weixin_5134499627 分钟前
walk_these_ways项目学习记录第七篇(通过行为多样性 (MoB) 实现地形泛化)--核心环境下
人工智能·python·学习
智在碧得33 分钟前
碧服智能体进化:AI赋能意图识别能力,“一问”更智能
大数据·人工智能·机器学习
人工智能AI技术38 分钟前
Visual Studio Code 1.114 更新:AI 聊天体验全面优化
人工智能