LLama系列模型简要概述

smartcat20102024-12-11 8:29

LLama-1（7B, 13B, 33B, 65B参数量；1.4T tokens训练数据量）

要做真正Open的AI

Efficient：同等预算下，增大训练数据，比增大模型参数量，效果要更好

训练数据：

书、Wiki这种量少、质量高的数据，训了2轮。

模型改动：

silu激活函数：

LLama-2 (7B, 13B, 70B参数量；2T tokens预训练数据量)

训练流程：

PreTrain + SFT微调 + RLHF强化学习；

安全Reward model, 有用Reward model；

效果：观察到，数据量继续增大的话，还可继续提升效果；

引入了GQA(Group Query Attention):

通过把K和V复制多份来实现的

只在70B模型上，用的GQA:

总共64个head，8个一组，一共有8个Query head和8个Value head。

LLama-3(8B,70B,即将放出的400B，15T tokens预训练数据量)

放出的400B测评，有些指标超过了GPT4；

Word embedding量从3.2万，扩大了4倍，到12.8万。好处：推理效率增加，原来1个中文字词被编码至多个tokens，现在只编码到1个token，减少了推理input和output的token数量。

训练数据：

有研究表明，Code训练数据，对大模型的推理能力提升，有重要作用。因此这里加大了Code的训练数据量。

用LLama2来做预训练数据的质量过滤器。

训练：

用小模型的表现，预测大模型的表现，OpenAI先掌握的，Meta后掌握。

2个24000张H100 GPU卡的集群。

LLama3-Instruct: SFT, Rejection Sampling, DPO, PPO