LLaMA 大语言模型系列论文阅读

文章目录

  • [1. LLaMA](#1. LLaMA)

1. LLaMA

paper:LLaMA: Open and Efficient Foundation Language Models 《开源高效的基础语言模型》

code:https://github.com/meta-llama

单位:Meta AI

时间:2023.02

LLaMA 模型声称以更小的体积,在多数任务上超越了GPT-3的性能。LLaMA 提供了 7B、13B、65B三种规格,其中 LLaMA 13B 基本超过了 GPT-3 175B

模型结构:transformer decoder-only 结构,与初始 Transformer 不同的地方包括采用了前置层归一化(Pre-normalization)、使用RMSNorm 归一化函数(Normalizing Function)、激活函数更换为SwiGLU、使用旋转位置嵌入(RoP)

优化器:AdamW

推荐阅读:

相关推荐
码上掘金4 小时前
基于YOLO和大语言模型的PCB智能缺陷检测系统
人工智能·yolo·语言模型
DuHz5 小时前
milliLoc 论文精读:把商用毫米波 FMCW 的绝对测距从“厘米栅格”推进到“毫米级连续值”,并顺带修正 AoA 的系统相位偏差
论文阅读·物联网·算法·信息与通信·毫米波雷达
dog2507 小时前
LLM(大语言模型)和高尔顿板
人工智能·语言模型·自然语言处理·高尔顿板
乐鑫科技 Espressif8 小时前
乐鑫私有化智能体平台介绍与应用
ai·语言模型·iot·乐鑫科技
硅谷秋水8 小时前
LLM的测试-时规模化:基于子问题结构视角的综述
人工智能·深度学习·机器学习·语言模型
阿杰学AI9 小时前
AI核心知识52——大语言模型之Model Quantization(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·模型量化·ai-native
阿杰学AI9 小时前
AI核心知识51——大语言模型之LLM Inference(简洁且通俗易懂版)
人工智能·ai·语言模型·aigc·模型推理·大语言模型推理·llm inference
阿正的梦工坊9 小时前
RLVE:通过自适应可验证环境扩展语言模型的强化学习
人工智能·深度学习·语言模型
semantist@语校11 小时前
第五十四篇|从事实字段到推理边界:名古屋国际外语学院Prompt生成中的过度推断防御设计
大数据·linux·服务器·人工智能·百度·语言模型·prompt