llaMa模型的创新

LLaMa介绍

LLaMa是基于transformer encoder的生成式模型。

目前有:LLAMA, LLAMA2, LLAMA3 三个大的版本

论文

LLAMA 2: Open Foundation and Fine-Tuned Chat Models: https://arxiv.org/pdf/2307.09288

LLAMA 3: The Llama 3 Herd of Models https://arxiv.org/pdf/2407.21783

模型:

主要创新

  • Pre-Normalization(Pre-Norm,层前归一化)

  • RMSNorm(Root Mean Square Layer Normalization,均方根层归一化):

  • 旋转位置编码(RoPE)

  • 稀疏注意力(Sparse Attention)

  • SwiGLU激活函数:

  • grouped-query attention (GQA)

  • 长上下文:

训练

LLAMA 7B训练18万+小时

相关推荐
忧郁的橙子.2 天前
07-大模型微调-LLama Factor微调Qwen -- 局部微调/训练医疗问答模型
llama·llama factor·微调qwen
南宫乘风3 天前
LLaMA-Factory 给 Qwen1.5 做 LoRA 微调 实战
人工智能·深度学习·llama
华农DrLai3 天前
什么是自动Prompt优化?为什么需要算法来寻找最佳提示词?
人工智能·算法·llm·nlp·prompt·llama
jjinl4 天前
1.1 llama.cpp 编译
llama
serve the people4 天前
macbook m4 LLaMA-Factory入门级微调
llama
WiSirius5 天前
LLM:基于 AgentScope + Streamlit 的 AI Agent脑暴室
人工智能·深度学习·自然语言处理·大模型·llama
掘金安东尼5 天前
llama.cpp、Ollama、LM Studio:背后是谁在做?为什么会出现?要什么机器才能跑?
llama
海天一色y5 天前
LLaMA-Factory PPO 训练实战:从 SFT 到 RLHF 完整指南
llama
接着奏乐接着舞。5 天前
5分钟本地跑起大模型
人工智能·llama
liuze4086 天前
Ollama安装
llama