LLama系列模型简要概述

LLama-1(7B, 13B, 33B, 65B参数量;1.4T tokens训练数据量)

要做真正Open的AI

Efficient:同等预算下,增大训练数据,比增大模型参数量,效果要更好

训练数据:

书、Wiki这种量少、质量高的数据,训了2轮。

模型改动:

silu激活函数:

LLama-2 (7B, 13B, 70B参数量;2T tokens预训练数据量)

训练流程:

PreTrain + SFT微调 + RLHF强化学习;

安全Reward model, 有用Reward model;

效果:观察到,数据量继续增大的话,还可继续提升效果;

引入了GQA(Group Query Attention):

通过把K和V复制多份来实现的

只在70B模型上,用的GQA:

总共64个head,8个一组,一共有8个Query head和8个Value head。

LLama-3(8B,70B,即将放出的400B,15T tokens预训练数据量)

放出的400B测评,有些指标超过了GPT4;

Word embedding量从3.2万,扩大了4倍,到12.8万。好处:推理效率增加,原来1个中文字词被编码至多个tokens,现在只编码到1个token,减少了推理input和output的token数量。

训练数据:

有研究表明,Code训练数据,对大模型的推理能力提升,有重要作用。因此这里加大了Code的训练数据量。

用LLama2来做预训练数据的质量过滤器。

训练:

用小模型的表现,预测大模型的表现,OpenAI先掌握的,Meta后掌握。

2个24000张H100 GPU卡的集群。

LLama3-Instruct: SFT, Rejection Sampling, DPO, PPO

相关推荐
Jina AI12 小时前
让 llama.cpp 支持多模态向量模型
llama
wyw000012 小时前
大模型微调之LLaMA-Factory实战
llama
2202_7567496912 小时前
LLM大模型-大模型微调(常见微调方法、LoRA原理与实战、LLaMA-Factory工具部署与训练、模型量化QLoRA)
人工智能·深度学习·llama
JoannaJuanCV12 小时前
大模型训练框架:LLaMA-Factory框架
llama·大模型训练·llama factory
骑士9991113 天前
llama_factory 安装以及大模型微调
llama
周小码4 天前
llama-stack实战:Python构建Llama应用的可组合开发框架(8k星)
开发语言·python·llama
blackoon886 天前
DeepSeek R1大模型微调实战-llama-factory的模型下载与训练
llama
johnny2336 天前
大模型微调理论、实战:LLaMA-Factory、Unsloth
llama
闲看云起6 天前
从 GPT 到 LLaMA:解密 LLM 的核心架构——Decoder-Only 模型
gpt·架构·llama
小草cys8 天前
在树莓派集群上部署 Distributed Llama (Qwen 3 14B) 详细指南
python·llama·树莓派·qwen