llaMa模型的创新

LLaMa介绍

LLaMa是基于transformer encoder的生成式模型。

目前有:LLAMA, LLAMA2, LLAMA3 三个大的版本

论文

LLAMA 2: Open Foundation and Fine-Tuned Chat Models: https://arxiv.org/pdf/2307.09288

LLAMA 3: The Llama 3 Herd of Models https://arxiv.org/pdf/2407.21783

模型:

主要创新

  • Pre-Normalization(Pre-Norm,层前归一化)

  • RMSNorm(Root Mean Square Layer Normalization,均方根层归一化):

  • 旋转位置编码(RoPE)

  • 稀疏注意力(Sparse Attention)

  • SwiGLU激活函数:

  • grouped-query attention (GQA)

  • 长上下文:

训练

LLAMA 7B训练18万+小时

相关推荐
喜欢吃豆20 小时前
llama.cpp 全方位技术指南:从底层原理到实战部署
人工智能·语言模型·大模型·llama·量化·llama.cpp
skywalk81631 天前
在星河社区部署大模型unsloth/Llama-3.3-70B-Instruct-GGUF
llama·aistudio
鹿子沐1 天前
LlamaFactory微调效果与vllm部署效果不一致
人工智能·llama
三千院本院3 天前
LlaMA_Factory实战微调Qwen-LLM大模型
人工智能·python·深度学习·llama
珊珊而川3 天前
MAC-SQL:SQL-Llama 的具体训练流程
sql·macos·llama
共绩算力3 天前
Llama 4 Maverick Scout 多模态MoE新里程碑
人工智能·llama·共绩算力
yanzhilv4 天前
Ollama + Open WebUI
llama
喜欢吃豆6 天前
掌握本地化大语言模型部署:llama.cpp 工作流与 GGUF 转换内核全面技术指南
人工智能·语言模型·架构·大模型·llama·llama.cpp·gguf
illuspas8 天前
Ubuntu 24.04下编译支持ROCm加速的llama.cpp
linux·ubuntu·llama
缘友一世10 天前
LLama3架构原理浅浅学学
人工智能·自然语言处理·nlp·transformer·llama