task03深入大模型架构

资料地址:https://datawhalechina.github.io/base-llm/#/chapter6/17_handcraft_llama2

Llama2

Llama2是meta ai推出的开源大模型,本节理解其内部的工作原理

Llama2架构总览

Llama2遵循GPT系列开创的Decoder-Only架构,完全由Transformer解码器堆叠而成,天然适用于自回归文本任务

Llama2的核心由N个相同的Transformer Block堆叠而成

Block内部数据流:

预归一化(Pre-Normalization)在进入注意力层和前馈网络之前,会先经过一次RMS Norm,这被认为是提升大模型训练稳定性的关键

组件:使用Grouped-Query Attention(GQA),前馈网络采用SwiGLU,归一化使用RMSNorm

旋转位置编码(RoPE),位置信息在注意力层内部,通过RoPE操作动态施加于Q(查询)和K(键)向量上

残差连接:每个子层(注意力层和前馈网络)的输出都通过残差连接与子层的输入相加,保留了原始信息流

![[Pasted image 20260120234201.png]]

与原始transformer相比,Llama2及其同类模型进行改进提升性能和训练稳定性:

输入嵌入:将token_ids转换为词向量

N × Transformer层堆叠:数据依次通过N个相同的Transformer Block,每个Block包括预归一化、注意力子系统、前馈网络子系统

最终归一化与输出:所有层之后,进行最后一次RMSNorm,并通过一个线性层将特征映射到词汇表logits

Llama2关键组件

预归一化

Llama2简化归一化过程:

移除均值中心化:只通过输入的均方根对其进行缩放

保留可学习增益:用于在归一化后恢复模型的表达能力

相关推荐
罗小罗同学1 分钟前
华西医院联合多伦多大学、盛京医院等机构发布多模态智能体检索模型,实现 AI 循证推理全链条权威可溯
大数据·人工智能·机器学习·医工交叉·医学ai
研究点啥好呢11 分钟前
途游游戏AI产品经理面试题精选:10道高频考题+答案解析
人工智能·游戏·产品经理
KG_LLM图谱增强大模型14 分钟前
从数据孤岛到知识融合:用友大型本体模型LOM如何赋能企业知识管理和智能决策
人工智能·知识图谱
码以致用14 分钟前
用 DeepAgents 自动分析表格数据,一键生成图表与报告
人工智能·ai编程
码上掘金19 分钟前
基于深度学习的行人计数与人群密度分析系统设计与实现
人工智能·深度学习
北京软秦科技有限公司24 分钟前
灌封胶耐候测试报告为何更依赖“AI报告审核”?IACheck如何提升长期环境可靠性判断精度
人工智能
程序员果子27 分钟前
Agent设计手册:四层架构、工程约束、框架选型
人工智能·agent·智能体·agent框架
2401_8322981030 分钟前
SaaS 到 Agent-as-a-Service——OpenClaw 生态爆发,开启企业数字化新时代
人工智能
AI产品测评官38 分钟前
2026年AI招聘架构深潜:多Agent协同如何打造主动出击智能体代表?
人工智能·架构
captain_AIouo43 分钟前
Captain AI:全阶段适配不同规模OZON商家
大数据·人工智能·经验分享·aigc