llaMa模型的创新

LLaMa介绍

LLaMa是基于transformer encoder的生成式模型。

目前有:LLAMA, LLAMA2, LLAMA3 三个大的版本

论文

LLAMA 2: Open Foundation and Fine-Tuned Chat Models: https://arxiv.org/pdf/2307.09288

LLAMA 3: The Llama 3 Herd of Models https://arxiv.org/pdf/2407.21783

模型:

主要创新

  • Pre-Normalization(Pre-Norm,层前归一化)

  • RMSNorm(Root Mean Square Layer Normalization,均方根层归一化):

  • 旋转位置编码(RoPE)

  • 稀疏注意力(Sparse Attention)

  • SwiGLU激活函数:

  • grouped-query attention (GQA)

  • 长上下文:

训练

LLAMA 7B训练18万+小时

相关推荐
d1z8883 小时前
(二十一)32天GPU测试从入门到精通-LLaMA 系列模型测试day19
llama·显卡·llm推理·推理引擎
AI精钢4 小时前
OpenClaw 本地内存检索与 node-llama-cpp 的依赖关系深度解析
llama·向量数据库·内存检索·openclaw·node-llama-cpp·本地 ai
❀͜͡傀儡师8 小时前
ShadowBroker:实时全球情报地图,开源情报(OSINT)的终极聚合平台
docker·容器·llama
❀͜͡傀儡师18 小时前
基于Docker的LLaMA-Factory全流程部署指南
docker·容器·llama
d1z88818 小时前
(二十)32天GPU测试从入门到精通-llama.cpp CPU/GPU 混合推理day18
人工智能·llama·显卡·llama.cpp
AI自动化工坊2 天前
Google LiteRT-LM生产级部署指南:如何在边缘设备实现高效LLM推理?
人工智能·ai·llama
gergul3 天前
在llama-cpp-python中使用自己编译的llama.cpp,解决pip install llama-cpp-python报错
python·llama·llama.cpp·llamacpppython
黑牛儿3 天前
零成本!Ollama本地部署国产大模型全指南(支持Kimi-K2.5/GLM-5/Qwen,新手秒上手)
ai·llama
奇思智算3 天前
LLaMA/Bert/扩散模型微调GPU选型及租用指南
人工智能·bert·llama
xingyuzhisuan3 天前
LoRA微调实战:8卡4090服务器如何高效微调LLaMA?
运维·服务器·llama·gpu算力