Baichuan2:Open large-scale language models

1.introduction

baichuan2基于2.6万亿个token进行训练。

2.pre-training

2.1 pre-training data

数据处理:关注数据频率和质量。数据频率依赖于聚类和去重,构建了一个支持LSH型特征和稠密embedding特征的大规模去重和聚类系统,单个文档、段落和句子被去重评分,这些评分然后用于预训练中的数据采样。

2.3 Tokenizer

分词器需要平衡两个关键因素:高压缩率以实现高效的推理,并适当大小的词汇表以确保每个词embedding的充分训练。词表从baichuan1中的64000扩展到125696,使用SentencePiece字节对编码。

2.4 Positional embeddings

Baichuan2-7B采用RoPE,Baichuan2-13B采用ALiBi。

2.5 Activations and Normalizations

SwiGLU,attention使用的是xformers,pre-RmsNorm

2.6 Optimizations

AdamW;BFloat16;NormHead:对输出embedding进行归一化;Max-z损失;

2.7 Scaling laws

在训练具有数十亿参数的大型语言模型之前,首先训练一些小模型,并为训练更大的模型拟合一个缩放定律。

2.8 infrastructure

1024块A800 GPU

3.alignment

baichuan2-7B-chat,baichuan2-13B-chat,对齐包括sft和rlhf。

3.1 sft

收集了超过10w个样本。

3.2 reward model

为所有的提示设计了一个三层分类系统,包括6个一级分类、30个二级分类和200多个三级分类。给定一个prompt,通过不同大小和阶段的baichuan2生成回复,已增加回复多样性。

4.safety

相关推荐
海底的星星fly1 小时前
【Prompt学习技能树地图】单一思维链优化-自我一致性提示工程原理、实践与代码实现
人工智能·语言模型·prompt
无妄无望1 小时前
解码器系列(1)BERT
人工智能·深度学习·bert
葡萄与www1 小时前
模块化神经网络
人工智能·深度学习·神经网络·机器学习
MediaTea1 小时前
Jupyter Notebook:基于 Web 的交互式编程环境
前端·ide·人工智能·python·jupyter
colus_SEU1 小时前
【循环神经网络3】门控循环单元GRU详解
人工智能·rnn·深度学习·机器学习·gru
阿_旭1 小时前
基于深度学习的CT扫描图像肝脏肿瘤智能检测与分析系统【python源码+Pyqt5界面+数据集+训练代码】
人工智能·python·深度学习·肝脏肿瘤分割
Juicedata1 小时前
九识智能:基于 JuiceFS 的自动驾驶多云亿级文件存储
人工智能·机器学习·自动驾驶
平和男人杨争争2 小时前
情绪识别论文阅读——EMO
论文阅读·人工智能·机器学习
lovod2 小时前
【视觉SLAM十四讲】视觉里程计 1
人工智能·线性代数·计算机视觉·矩阵·机器人
格林威2 小时前
紫外UV相机在机器视觉检测方向的应用
人工智能·数码相机·opencv·计算机视觉·视觉检测·uv