llaMa模型的创新

LLaMa介绍

LLaMa是基于transformer encoder的生成式模型。

目前有:LLAMA, LLAMA2, LLAMA3 三个大的版本

论文

LLAMA 2: Open Foundation and Fine-Tuned Chat Models: https://arxiv.org/pdf/2307.09288

LLAMA 3: The Llama 3 Herd of Models https://arxiv.org/pdf/2407.21783

模型:

主要创新

  • Pre-Normalization(Pre-Norm,层前归一化)

  • RMSNorm(Root Mean Square Layer Normalization,均方根层归一化):

  • 旋转位置编码(RoPE)

  • 稀疏注意力(Sparse Attention)

  • SwiGLU激活函数:

  • grouped-query attention (GQA)

  • 长上下文:

训练

LLAMA 7B训练18万+小时

相关推荐
范桂飓12 小时前
LLaMA-Factory 大模型微调平台
人工智能·llama
杜子不疼.13 小时前
【大模型 】API 对接指南:OpenAI/Claude/LLaMA 3 调用技巧
llama
小Pawn爷1 天前
11.大模型评估
llm·llama·fingpt
薛定谔的猫19823 天前
LlamaIndex(一)初见
llama·llamaindex
Android小码家5 天前
llama.cpp+Android应用定制
android·llama
Android小码家5 天前
WSL+llama+CPU本地模型部署
llama·wsl·模型
沛沛老爹5 天前
Web开发者5分钟上手:Agent Skills环境搭建与基础使用实战
java·人工智能·llm·llama·rag·agent skills
星辰引路-Lefan5 天前
在浏览器中运行大模型:基于 WebGPU 的本地 LLM 应用深度解析
ai·ai编程·llama·gpu算力
natide6 天前
text-generateion-webui模型加载器(Model Loaders)选项
人工智能·llama
*星星之火*6 天前
【大模型进阶】视频课程2 LORA微调原理深度解析+LLaMA Factory实操指南:小白也能玩转大模型定制
lora·大模型·微调·llama·llama factory