LLaMA 大语言模型系列论文阅读

文章目录

  • [1. LLaMA](#1. LLaMA)

1. LLaMA

paper:LLaMA: Open and Efficient Foundation Language Models 《开源高效的基础语言模型》

code:https://github.com/meta-llama

单位:Meta AI

时间:2023.02

LLaMA 模型声称以更小的体积,在多数任务上超越了GPT-3的性能。LLaMA 提供了 7B、13B、65B三种规格,其中 LLaMA 13B 基本超过了 GPT-3 175B

模型结构:transformer decoder-only 结构,与初始 Transformer 不同的地方包括采用了前置层归一化(Pre-normalization)、使用RMSNorm 归一化函数(Normalizing Function)、激活函数更换为SwiGLU、使用旋转位置嵌入(RoP)

优化器:AdamW

推荐阅读:

相关推荐
天青色等烟雨..3 小时前
R+VIC模型融合实践技术应用及未来气候变化模型预测
大数据·人工智能·arcgis·语言模型·数据分析
暴躁小师兄数据学院3 小时前
【AI大数据工程师特训笔记】第04讲:PostgreSQL 数据库内置函数详解
大数据·数据库·笔记·ai·语言模型
YueJoy.AI6 小时前
AI应用的隐私保护:从设计开始的隐私
人工智能·ai·语言模型
生成论实验室6 小时前
我们给AI装上了判断力
人工智能·深度学习·语言模型·机器人·自动驾驶
YueJoy.AI7 小时前
创业团队如何建立技术品牌
人工智能·ai·语言模型
星辰AI7 小时前
AIOps 实战:智能运维在 AI 应用中的实践
人工智能·ai·语言模型
zhangfeng11337 小时前
vLLM + AWQ 是什么,为什么有算力架构要求 为什么v100默认不支持
人工智能·语言模型·显卡·vllm
AndrewHZ8 小时前
【大模型技术博客】什么是大语言模型(LLM)?从零认识AI新范式
人工智能·深度学习·ai·语言模型·大模型·llm·transformer
凌晨一点的秃头猪9 小时前
GR2(Generative Reasoning Reranker,生成式推理重排器)论文阅读
论文阅读