Baichuan2:Open large-scale language models

1.introduction

baichuan2基于2.6万亿个token进行训练。

2.pre-training

2.1 pre-training data

数据处理:关注数据频率和质量。数据频率依赖于聚类和去重,构建了一个支持LSH型特征和稠密embedding特征的大规模去重和聚类系统,单个文档、段落和句子被去重评分,这些评分然后用于预训练中的数据采样。

2.3 Tokenizer

分词器需要平衡两个关键因素:高压缩率以实现高效的推理,并适当大小的词汇表以确保每个词embedding的充分训练。词表从baichuan1中的64000扩展到125696,使用SentencePiece字节对编码。

2.4 Positional embeddings

Baichuan2-7B采用RoPE,Baichuan2-13B采用ALiBi。

2.5 Activations and Normalizations

SwiGLU,attention使用的是xformers,pre-RmsNorm

2.6 Optimizations

AdamW;BFloat16;NormHead:对输出embedding进行归一化;Max-z损失;

2.7 Scaling laws

在训练具有数十亿参数的大型语言模型之前,首先训练一些小模型,并为训练更大的模型拟合一个缩放定律。

2.8 infrastructure

1024块A800 GPU

3.alignment

baichuan2-7B-chat,baichuan2-13B-chat,对齐包括sft和rlhf。

3.1 sft

收集了超过10w个样本。

3.2 reward model

为所有的提示设计了一个三层分类系统,包括6个一级分类、30个二级分类和200多个三级分类。给定一个prompt,通过不同大小和阶段的baichuan2生成回复,已增加回复多样性。

4.safety

相关推荐
从负无穷开始的三次元代码生活3 分钟前
AI基座知识点——了解AI核心组件内容部分
人工智能·ai
林间码客3 分钟前
人工智能知识点复习汇总
人工智能
wilbertzhou3 分钟前
大语言模型时代的语义元数据:从静态资产目录到智能治理
人工智能·llm·大语言模型·数据治理·元数据管理·语义元数据
皮皮蟹虾饺5 分钟前
MiniMind:从零训练大语言模型全流程实战指南
人工智能·语言模型·自然语言处理
万俟淋曦5 分钟前
【论文速递】2026年第03周(Jan-11-17)(Robotics/Embodied AI/LLM)
人工智能·ai·机器人·大模型·论文·robotics·具身智能
邵宇然6 分钟前
静态图编译优化:基于 Rust 的计算图常量折叠与无效节点剪枝
人工智能
腾讯云开发者8 分钟前
从单体 Agent 到群体智能:OpenClaw 背后的分布式 AI 演进
人工智能
腾讯云开发者9 分钟前
从 OpenClaw 看消费零售企业 AI 落地的正确姿势
人工智能
良逍Ai出海10 分钟前
免费模板搭完独立站后,我用 Codex + Figma 做了自己的页面设计
前端·人工智能·figma
腾讯云开发者11 分钟前
OpenClaw 与 Agent 时代的人机交互真相
人工智能