LLaMA 大语言模型系列论文阅读

文章目录

  • [1. LLaMA](#1. LLaMA)

1. LLaMA

paper:LLaMA: Open and Efficient Foundation Language Models 《开源高效的基础语言模型》

code:https://github.com/meta-llama

单位:Meta AI

时间:2023.02

LLaMA 模型声称以更小的体积,在多数任务上超越了GPT-3的性能。LLaMA 提供了 7B、13B、65B三种规格,其中 LLaMA 13B 基本超过了 GPT-3 175B

模型结构:transformer decoder-only 结构,与初始 Transformer 不同的地方包括采用了前置层归一化(Pre-normalization)、使用RMSNorm 归一化函数(Normalizing Function)、激活函数更换为SwiGLU、使用旋转位置嵌入(RoP)

优化器:AdamW

推荐阅读:

相关推荐
大鱼>1 天前
大语言模型+物联网:LLM理解物理世界
物联网·struts·语言模型·多模态·aiot
cqbzcsq1 天前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息
凌晨一点的秃头猪1 天前
论文阅读 GTI(Graph-based Tree Index): 面向高维空间最近邻搜索的动态图-树混合索引结构
论文阅读
AndrewHZ1 天前
【LLM技术全景】大模型能力探秘:In-Context Learning与思维链(CoT)
人工智能·语言模型·大模型·llm·cot·思维链·icl
生成论实验室2 天前
机器人:一个自主运动的系统
人工智能·算法·语言模型·机器人·自动驾驶·agi·安全架构
Data-Miner2 天前
大语言模型+智能体AI,122页PPT详解落地应用培训!
人工智能·microsoft·语言模型
有Li2 天前
PTCMIL:基于提示 token 聚类的全切片图像多实例学习分析文献速递/多模态医学影像最新进展
论文阅读·学习·数据挖掘·聚类·文献·医学生
AI小百科2 天前
llama.cpp vs vLLM:深度解析与选型指南
llama·vllm
大模型最新论文速读2 天前
06-16 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
枫叶林FYL2 天前
BRIDGE:多模态查询的强化学习对齐与文本检索重构
人工智能·语言模型