LLaMA 大语言模型系列论文阅读

文章目录

  • [1. LLaMA](#1. LLaMA)

1. LLaMA

paper:LLaMA: Open and Efficient Foundation Language Models 《开源高效的基础语言模型》

code:https://github.com/meta-llama

单位:Meta AI

时间:2023.02

LLaMA 模型声称以更小的体积,在多数任务上超越了GPT-3的性能。LLaMA 提供了 7B、13B、65B三种规格,其中 LLaMA 13B 基本超过了 GPT-3 175B

模型结构:transformer decoder-only 结构,与初始 Transformer 不同的地方包括采用了前置层归一化(Pre-normalization)、使用RMSNorm 归一化函数(Normalizing Function)、激活函数更换为SwiGLU、使用旋转位置嵌入(RoP)

优化器:AdamW

推荐阅读:

相关推荐
code_pgf21 小时前
Llama 3详解
人工智能·llama
m0_4889130121 小时前
万字长文带你梳理Llama开源家族:从Llama-1到Llama-3,看这一篇就够了!
人工智能·学习·机器学习·大模型·产品经理·llama·uml
helpme流水21 小时前
LLaMA Factory 从入门到精通,一篇讲完
人工智能·ai·语言模型·llama
阿杰学AI1 天前
AI核心知识120—大语言模型之 基于人类反馈的强化学习 (简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·rlhf·基于人类反馈的强化学习
热爱专研AI的学妹1 天前
Claude Code 完全使用指南:从入门到高效 AI 编程实战
大数据·人工智能·阿里云·语言模型
阿杰学AI1 天前
AI核心知识119—大语言模型之 监督微调 (简洁且通俗易懂版)
人工智能·深度学习·ai·语言模型·aigc·sft·监督微调
十三画者1 天前
【文献分享】ICGI通过将因果提示型大型语言模型与基于组学数据的因果推断相结合来识别癌症基因
人工智能·语言模型·自然语言处理
一叶知秋yyds1 天前
大语言模型LLM完整技术解析从训练到应用
人工智能·语言模型·自然语言处理
tz_zs1 天前
【github copilot】 Language model unavailable
语言模型·github·copilot·ai编程