探索和构建 LLaMA 3 架构:深入探讨组件、编码和推理技术(一)

探索和构建 LLaMA 3 架构:深入探讨组件、编码和推理技术(一)

Meta 通过推出新的开源 AI 模型 Llama 3 以及新版本的 Meta AI,正在加强其在人工智能 (AI) 竞赛中的竞争力。该虚拟助手由 Llama 3 提供支持,现已可在所有 Meta 平台上使用。

  • Llama 3 是什么?:Meta 推出了 Llama 3,这是其 Llama 系列开源 AI 模型中的最新版本。 Llama 3 有两种变体:一种具有 80 亿个参数,另一种具有 700 亿个参数。Meta 声称 Llama 3 在这些参数尺度上为大型语言模型设立了新标准。他们改进了训练前和训练后流程,从而降低了错误拒绝率、更好的对齐以及模型的更多样化的响应。值得注意的是,Llama 3 拥有增强的推理、代码生成和指令跟踪能力。

LLaMA 架构:

  • 与前代模型之间的主要区别在于,预训练语料库的大小增加了 650% ,LLaMA 2 在 2T标记上进行训练,而 LLaMA 3 在 15T 标记上进行训练,模型的上下文长度从 4K 增加了一倍到 8K ,8B 和 70B 模型,并对 8B 和 70B 变体采用分组查询注意力,与上一代(GQA)相比,仅在更大的模型 34B 和 70B 中使用。最有影响力的部分是新的安全方法,包括安全和有用两种奖励模式。

Llama3 模型大小、架构、优化超参数


llama2 模型大小、架构、优化超参数

Llama1 参数

Llama架构

LLaMA 3 架构主要采用与 LLaMA 2 相同的架构,其中 GQA(分组查询注意)用于 8B 和 70B 模型,RoPE(旋转位置嵌入)用于 Q、K,因为 V 仅在应用 SoftMax 之前相乘函数,RMS(均方根误差)用于在 Self Attention 之前应用的归一化,前馈块,KV 缓存也与 LLMA 中使用的保持相同。注意:此模型架构仅专注于模型推理,而不是用于训练,因此具有交叉注意力的解码器块不会被覆盖,KV 缓存也不会用于模型的训练阶段。

大模型技术分享

相关推荐
HyperAI超神经1 小时前
对标Hugging Face?GitHub Models新增OpenAI o1/Llama 3.2等, 新功能支持模型并排比较
人工智能·机器学习·github·llama·huggingface
努力的光头强2 天前
人工智能大模型赋能医疗健康产业白皮书(2023年)|附88页PDF文件下载
人工智能·算法·ai·pdf·产品经理·llama
cv2016_DL2 天前
CLIP改进
人工智能·深度学习·机器学习·计算机视觉·llama
马武寨山的猴子3 天前
【LLaMA-Factory】【Windows】:在windows操作系统配置大模型微调框架LLaMA-Factory
人工智能·windows·机器学习·llama
洛阳泰山4 天前
使用Llama Index与Streamlit实现一个从文本中提取专业术语和定义网页小程序
python·小程序·llm·llama·streamlit·1024程序员节·llamaindex
帅气的人1234 天前
ollama 在 Linux 环境的安装
linux·服务器·人工智能·ai·java-ee·llama
强哥之神4 天前
一文了解:多智能体系统(MAS)的演变(算法篇)
人工智能·机器学习·目标跟踪·语言模型·llama·多智能体·智能体
TechLead KrisChang5 天前
LlamaCoder:一款基于Llama 3.1 405B的全新开源AI编程助手
人工智能·ai编程·llama
AI大模型训练家7 天前
从头预训练一只迷你 LLaMA 3_llama3 预训练预处理
数据库·人工智能·语言模型·自然语言处理·产品经理·llama
LinkTime_Cloud8 天前
联想与Meta合作基于Llama大模型推出面向PC的个人AI智能体——AI Now | LeetTalk Daily...
大数据·人工智能·llama