Baichuan2:Open large-scale language models

1.introduction

baichuan2基于2.6万亿个token进行训练。

2.pre-training

2.1 pre-training data

数据处理:关注数据频率和质量。数据频率依赖于聚类和去重,构建了一个支持LSH型特征和稠密embedding特征的大规模去重和聚类系统,单个文档、段落和句子被去重评分,这些评分然后用于预训练中的数据采样。

2.3 Tokenizer

分词器需要平衡两个关键因素:高压缩率以实现高效的推理,并适当大小的词汇表以确保每个词embedding的充分训练。词表从baichuan1中的64000扩展到125696,使用SentencePiece字节对编码。

2.4 Positional embeddings

Baichuan2-7B采用RoPE,Baichuan2-13B采用ALiBi。

2.5 Activations and Normalizations

SwiGLU,attention使用的是xformers,pre-RmsNorm

2.6 Optimizations

AdamW;BFloat16;NormHead:对输出embedding进行归一化;Max-z损失;

2.7 Scaling laws

在训练具有数十亿参数的大型语言模型之前,首先训练一些小模型,并为训练更大的模型拟合一个缩放定律。

2.8 infrastructure

1024块A800 GPU

3.alignment

baichuan2-7B-chat,baichuan2-13B-chat,对齐包括sft和rlhf。

3.1 sft

收集了超过10w个样本。

3.2 reward model

为所有的提示设计了一个三层分类系统,包括6个一级分类、30个二级分类和200多个三级分类。给定一个prompt,通过不同大小和阶段的baichuan2生成回复,已增加回复多样性。

4.safety

相关推荐
倔强青铜三几秒前
就离谱!Python相对路径竟暗藏杀机?90%开发者踩过的坑!
人工智能·python·面试
李元豪4 分钟前
我有免费的大模型能力,文本转语音,语音转文本,文本生成视频的能力。如何组合这些资源能力?生成一个有价值的可以挣钱的项目为社会做贡献?
人工智能
寻觅神话065 分钟前
Coze扣子 - AI生成数字人口播视频
人工智能
牛奶还是纯的好22 分钟前
目标检测标注格式
人工智能·目标检测·目标跟踪
摘取一颗天上星️34 分钟前
端到端记忆网络 vs 神经图灵机:外部记忆的两种哲学之争
网络·人工智能·深度学习·机器学习·lstm·外部记忆
vlln42 分钟前
【论文解读】rStar:用互洽方法增强 SLM(小型语言模型) 推理能力
人工智能·深度学习·语言模型·自然语言处理·transformer
CoderJia程序员甲1 小时前
awesome-llm-apps 项目带你探索语言模型的无限可能
人工智能·ai·语言模型·自然语言处理
我不是小upper1 小时前
PDF转Markdown基准测试
图像处理·人工智能·markdown·marker·docling
家庭云计算专家1 小时前
ONLYOFFICE 的AI技巧-1.集成OCR、文本转图像、电子表格集成等新功能
人工智能·ocr·onlyoffice·协作空间
倔强青铜三2 小时前
Python相对导入的终极翻车现场:为啥你的代码总报错?
人工智能·python·面试