LLaMA 大语言模型系列论文阅读

文章目录

  • [1. LLaMA](#1. LLaMA)

1. LLaMA

paper:LLaMA: Open and Efficient Foundation Language Models 《开源高效的基础语言模型》

code:https://github.com/meta-llama

单位:Meta AI

时间:2023.02

LLaMA 模型声称以更小的体积,在多数任务上超越了GPT-3的性能。LLaMA 提供了 7B、13B、65B三种规格,其中 LLaMA 13B 基本超过了 GPT-3 175B

模型结构:transformer decoder-only 结构,与初始 Transformer 不同的地方包括采用了前置层归一化(Pre-normalization)、使用RMSNorm 归一化函数(Normalizing Function)、激活函数更换为SwiGLU、使用旋转位置嵌入(RoP)

优化器:AdamW

推荐阅读:

相关推荐
做cv的小昊1 天前
结合代码读3DGS论文(10)——ICLR 2025 3DGS加速&压缩新工作Sort-Free 3DGS论文及代码解读
论文阅读·人工智能·游戏·计算机视觉·3d·图形渲染·3dgs
QFIUNE1 天前
【文献阅读】MINT:让AI“学会”蛋白质对话的语言,开启相互作用预测新时代
论文阅读
code_pgf1 天前
Jetson Orin NX 16G部署llama.cpp框架(5090微调模型)
边缘计算·llama
Timer@1 天前
LangChain 教程 01|概述:AI 应用开发的新范式
人工智能·语言模型·langchain·前端框架
懒麻蛇1 天前
用大语言模型生成心理学范式 2.0
人工智能·语言模型·自然语言处理
AI产品备案1 天前
生成式人工智能(大语言模型)上线备案表【模版分享+填报指南】
人工智能·语言模型·自然语言处理
龙腾AI白云1 天前
如何利用大语言模型的能力进行实体关系抽取
人工智能·语言模型·自然语言处理·tornado
有为少年1 天前
ArXiv 2603 | 用神经元胞自动机训练语言模型:合成数据能超越自然语言吗?
人工智能·语言模型·自然语言处理
韭菜盖饭1 天前
大模型常见八股集合(带答案)
语言模型·自然语言处理·面试·transformer
智算菩萨1 天前
AI原生6G网络:语义通信、可重构智能表面与边缘智能的深度融合研究
网络·论文阅读·人工智能·ai·重构·论文笔记·ai-native