LLaMA 大语言模型系列论文阅读

文章目录

  • [1. LLaMA](#1. LLaMA)

1. LLaMA

paper:LLaMA: Open and Efficient Foundation Language Models 《开源高效的基础语言模型》

code:https://github.com/meta-llama

单位:Meta AI

时间:2023.02

LLaMA 模型声称以更小的体积,在多数任务上超越了GPT-3的性能。LLaMA 提供了 7B、13B、65B三种规格,其中 LLaMA 13B 基本超过了 GPT-3 175B

模型结构:transformer decoder-only 结构,与初始 Transformer 不同的地方包括采用了前置层归一化(Pre-normalization)、使用RMSNorm 归一化函数(Normalizing Function)、激活函数更换为SwiGLU、使用旋转位置嵌入(RoP)

优化器:AdamW

推荐阅读:

相关推荐
大猪宝宝学AI6 小时前
【AI Infra】SonicMoE论文笔记
论文阅读·人工智能·性能优化
Android小码家6 小时前
llama.cpp+Android应用定制
android·llama
Android小码家7 小时前
WSL+llama+CPU本地模型部署
llama·wsl·模型
沛沛老爹7 小时前
Web开发者5分钟上手:Agent Skills环境搭建与基础使用实战
java·人工智能·llm·llama·rag·agent skills
数据分享者8 小时前
对话对齐反馈数据集:12000+高质量人类-助手多轮对话用于RLHF模型训练与评估-人工智能-大语言模型对齐-人类反馈强化学习-训练符合人类期望的对话模型
人工智能·语言模型·自然语言处理
黑客思维者9 小时前
二次函数模型完整训练实战教程,理解非线性模型的拟合逻辑(超详细,零基础可懂)
人工智能·语言模型·非线性拟合·二次函数模型
小途软件9 小时前
ssm607家政公司服务平台的设计与实现+vue
java·人工智能·pytorch·python·深度学习·语言模型
小途软件10 小时前
基于深度学习的垃圾识别分类研究与实现
人工智能·pytorch·python·深度学习·语言模型
小途软件11 小时前
基于深度学习的人脸属性增强器
java·人工智能·pytorch·python·深度学习·语言模型
星辰引路-Lefan13 小时前
在浏览器中运行大模型:基于 WebGPU 的本地 LLM 应用深度解析
ai·ai编程·llama·gpu算力