llaMa模型的创新

yuleicqut2025-02-26 10:40

LLaMa介绍

LLaMa是基于transformer encoder的生成式模型。

目前有：LLAMA, LLAMA2, LLAMA3 三个大的版本

论文

LLAMA 2: Open Foundation and Fine-Tuned Chat Models： https://arxiv.org/pdf/2307.09288

LLAMA 3: The Llama 3 Herd of Models https://arxiv.org/pdf/2407.21783

模型：

主要创新

Pre-Normalization（Pre-Norm，层前归一化）
RMSNorm（Root Mean Square Layer Normalization，均方根层归一化）：
旋转位置编码（RoPE）
稀疏注意力（Sparse Attention）
SwiGLU激活函数：
grouped-query attention (GQA)
长上下文：

训练

LLAMA 7B训练18万+小时

上一篇：DeepSeek05-大模型WebUI

下一篇：kafka队列堆积问题的常见排查

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03OpenClaw + 飞书（Feishu）环境搭建指南 04Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 05小黑课堂计算机二级WPSoffice题库软件下载安装教程（2026年3月最新版）06OpenClaw优化飞书API 额度已耗尽问题 07Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 08Window 10部署openclaw报错node.exe : npm error code 128 09【OpenClaw 本地实战 Ep.3】突破瓶颈：强制修改 openclaw.json 解锁 32k 上下文记忆 10OpenClaw大龙虾机器人完整安装教程