LLama系列模型简要概述

LLama-1(7B, 13B, 33B, 65B参数量;1.4T tokens训练数据量)

要做真正Open的AI

Efficient:同等预算下,增大训练数据,比增大模型参数量,效果要更好

训练数据:

书、Wiki这种量少、质量高的数据,训了2轮。

模型改动:

silu激活函数:

LLama-2 (7B, 13B, 70B参数量;2T tokens预训练数据量)

训练流程:

PreTrain + SFT微调 + RLHF强化学习;

安全Reward model, 有用Reward model;

效果:观察到,数据量继续增大的话,还可继续提升效果;

引入了GQA(Group Query Attention):

通过把K和V复制多份来实现的

只在70B模型上,用的GQA:

总共64个head,8个一组,一共有8个Query head和8个Value head。

LLama-3(8B,70B,即将放出的400B,15T tokens预训练数据量)

放出的400B测评,有些指标超过了GPT4;

Word embedding量从3.2万,扩大了4倍,到12.8万。好处:推理效率增加,原来1个中文字词被编码至多个tokens,现在只编码到1个token,减少了推理input和output的token数量。

训练数据:

有研究表明,Code训练数据,对大模型的推理能力提升,有重要作用。因此这里加大了Code的训练数据量。

用LLama2来做预训练数据的质量过滤器。

训练:

用小模型的表现,预测大模型的表现,OpenAI先掌握的,Meta后掌握。

2个24000张H100 GPU卡的集群。

LLama3-Instruct: SFT, Rejection Sampling, DPO, PPO

相关推荐
RockWang.4 小时前
【llama_factory】qwen2_vl训练与批量推理
llama·qwen2-vl
beyond阿亮2 天前
llama.cpp编译和运行 API调用
c++·人工智能·ai·llama
玄明Hanko3 天前
小模型干大事情,基于LLaMA-Factory+Lora入门级微调开源AI模型
人工智能·llama
qq_351754788 天前
通过LlaMA-Factory导出的模型部署到Ollama
llama
cxr82810 天前
如何制定有效的微调策略
llama·cesium·unsloth
奔波儿灞爱霸波尔奔10 天前
人工智能之基于阿里云快速搭建Llama-3.2-11B-Vision-Instruct
人工智能·阿里云·llama
engchina14 天前
使用 `llama_index` 构建智能问答系统:多种文档切片方法的评估
python·openai·llama·代码优化·rag
XianxinMao15 天前
超越LLaMA:语言模型三重奏Alpaca、Vicuna与WizardLM
人工智能·语言模型·llama
小森( ﹡ˆoˆ﹡ )16 天前
Flash Attention V3使用
人工智能·深度学习·神经网络·机器学习·自然语言处理·nlp·llama
阿正的梦工坊18 天前
如何查看下载到本地的大模型的具体大小?占了多少存储空间:Llama-3.1-8B下载到本地大概15GB
llm·llama