Baichuan2:Open large-scale language models

1.introduction

baichuan2基于2.6万亿个token进行训练。

2.pre-training

2.1 pre-training data

数据处理:关注数据频率和质量。数据频率依赖于聚类和去重,构建了一个支持LSH型特征和稠密embedding特征的大规模去重和聚类系统,单个文档、段落和句子被去重评分,这些评分然后用于预训练中的数据采样。

2.3 Tokenizer

分词器需要平衡两个关键因素:高压缩率以实现高效的推理,并适当大小的词汇表以确保每个词embedding的充分训练。词表从baichuan1中的64000扩展到125696,使用SentencePiece字节对编码。

2.4 Positional embeddings

Baichuan2-7B采用RoPE,Baichuan2-13B采用ALiBi。

2.5 Activations and Normalizations

SwiGLU,attention使用的是xformers,pre-RmsNorm

2.6 Optimizations

AdamW;BFloat16;NormHead:对输出embedding进行归一化;Max-z损失;

2.7 Scaling laws

在训练具有数十亿参数的大型语言模型之前,首先训练一些小模型,并为训练更大的模型拟合一个缩放定律。

2.8 infrastructure

1024块A800 GPU

3.alignment

baichuan2-7B-chat,baichuan2-13B-chat,对齐包括sft和rlhf。

3.1 sft

收集了超过10w个样本。

3.2 reward model

为所有的提示设计了一个三层分类系统,包括6个一级分类、30个二级分类和200多个三级分类。给定一个prompt,通过不同大小和阶段的baichuan2生成回复,已增加回复多样性。

4.safety

相关推荐
源码方舟7 分钟前
【小明剑魔视频Viggle AI模仿的核心算法组成】
人工智能·算法·音视频
人工智能与智能制造13 分钟前
基于大模型与人工智能体的机械臂对话式交互系统RobotAgent
人工智能·语言模型·交互
珈和info29 分钟前
《经济日报》深度聚焦|珈和科技携手万果博览荟共筑智慧农业新示范高地 全链赋能蒲江茶果产业数字化转型升级
人工智能·科技·物联网
哔哩哔哩技术35 分钟前
Index-AniSora技术升级开源:动漫视频生成强化学习
人工智能·音视频
白熊18835 分钟前
【图像大模型】Stable Video Diffusion:基于时空扩散模型的视频生成技术深度解析
人工智能·chrome·计算机视觉·音视频
徐礼昭|商派软件市场负责人1 小时前
2025年AI搜索引擎发展洞察:技术革新与市场变革
人工智能·搜索引擎
东哥说-MES|从入门到精通1 小时前
第二章 何谓第二大脑?笔记记录
人工智能·机器学习·制造·设计规范·规格说明书
新知图书1 小时前
图像处理基础知识
图像处理·人工智能·计算机视觉
weixin_510110401 小时前
人工智能如何做主题班会PPT?
人工智能·科技·职场和发展·课程设计
Elastic 中国社区官方博客1 小时前
日志根因分析:Elastic Observability 的异常检测与日志分类功能
大数据·人工智能·elasticsearch·搜索引擎·分类·数据挖掘·全文检索