LLaMA 大语言模型系列论文阅读

文章目录

  • [1. LLaMA](#1. LLaMA)

1. LLaMA

paper:LLaMA: Open and Efficient Foundation Language Models 《开源高效的基础语言模型》

code:https://github.com/meta-llama

单位:Meta AI

时间:2023.02

LLaMA 模型声称以更小的体积,在多数任务上超越了GPT-3的性能。LLaMA 提供了 7B、13B、65B三种规格,其中 LLaMA 13B 基本超过了 GPT-3 175B

模型结构:transformer decoder-only 结构,与初始 Transformer 不同的地方包括采用了前置层归一化(Pre-normalization)、使用RMSNorm 归一化函数(Normalizing Function)、激活函数更换为SwiGLU、使用旋转位置嵌入(RoP)

优化器:AdamW

推荐阅读:

相关推荐
Mr Sorry1 小时前
Non-stationary Diffusion For Probabilistic Time Series Forecasting论文阅读笔记
论文阅读·笔记
dundunmm1 小时前
【论文阅读】SIMBA: single-cell embedding along with features(2)
论文阅读·人工智能·embedding·生物信息·单细胞·多组学·细胞类型识别
王上上1 小时前
【论文阅读69】-DeepHGNN复杂分层结构下的预测
论文阅读
AustinCyy1 小时前
【论文笔记】STORYWRITER: A Multi-Agent Framework for Long Story Generation
论文阅读
PigeonGuan4 小时前
论文阅读 2025-8-9 [DiC, DropKey]
论文阅读
网安INF4 小时前
【论文阅读】-《SIGN-OPT: A QUERY-EFFICIENT HARD-LABEL ADVERSARIAL ATTACK》
论文阅读·人工智能·网络安全·对抗攻击
It_张6 小时前
LLM(大语言模型)的工作原理 图文讲解
人工智能·语言模型·自然语言处理
runfarther7 小时前
uv与conda的区别及选择指南
语言模型·conda·ai编程·uv
网安INF21 小时前
【论文阅读】-《HopSkipJumpAttack: A Query-Efficient Decision-Based Attack》
论文阅读·人工智能·深度学习·网络安全·对抗攻击
张较瘦_1 天前
[论文阅读] 软件工程工具 | EVOSCAT可视化工具如何重塑软件演化研究
论文阅读·软件工程