1 训练预料的大小

训练阶段	数据量级	数据来源	用途
预训练	100亿+ tokens	通用语料+行业语料	构建基础语言能力
继续预训练(CPT)	10亿+ tokens	行业专业文档	注入领域知识
监督微调(SFT)	1万-10万条	指令-响应对	任务对齐
偏好优化(DPO)	5千-5万条	偏好对比数据	价值观对齐

模型规模	预训练数据	SFT数据	DPO数据
7B以下	100亿 tokens	5千-1万条	2千-5千条
7B-13B	500亿 tokens	1万-5万条	5千-1万条
13B以上	1000亿+ tokens	5万-10万条	1万-5万条

工具	用途	链接
LLaMA Factory	微调数据预处理	GitHub开源
Data-Juicer	数据清洗处理	阿里开源
Dataprep	数据准备流水线	Google开源
Label Studio	数据标注平台	开源/企业版

2 数据格式详解

2.1 预训练数据格式

C4 数据集的主要格式特点

‌文件格式 ‌：.json.gz（压缩的 JSON Lines 文件）
‌每行一个 JSON 对象‌，对应一个文本样本

适用场景： 基础模型训练、继续预训练

格式：JSONL (JSON Lines)，一行一个JSON对象

{"text": "这是第一段预训练文本内容..."} {"text": "这是第二段预训练文本内容..."}

{"text": "这是第三段预训练文本内容..."}

要求：

✅ 纯文本，无特殊标记
✅ 每行独立JSON对象
✅ UTF-8编码
✅ 单条文本建议 512-4096 tokens

2.2 指令微调(SFT)数据格式

2.2.1 Alpaca 格式（单轮对话）

适用场景： 问答、文本生成、分类等单轮任务

{"instruction": "请总结以下会议记录的核心内容", "input": "2026年3月10日产品例会：1.新版本上线时间确定为3月25日 2.用户反馈问题优先级调整 3.下季度OKR目标讨论...", "output": "会议核心内容：1.新版本3月25日上线 2.调整用户反馈问题优先级 3.讨论下季度OKR目标"}

{"instruction": "根据客户需求生成产品推荐方案", "input": "客户行业：制造业；规模：500人；预算：50万；需求：生产管理系统", "output": "推荐方案：针对500人规模的制造企业，建议选择XX生产管理系统，包含生产计划、质量管理、设备维护模块，预估实施周期3个月..."}

{"instruction": "将以下技术文档翻译成英文", "input": "系统支持高并发访问，采用负载均衡技术确保服务稳定性。", "output": "The system supports high-concurrency access and uses load balancing technology to ensure service stability."}

2.2.2 ShareGPT 格式（多轮对话）

适用场景： 客服对话、多轮问答、助手类应用

{ "conversations": [ {"role": "user", "content": "你好，我想查询订单状态"},

{"role": "assistant", "content": "您好，请提供您的订单号，我帮您查询。"},

{"role": "user", "content": "订单号是 ORD20260314001"},

{"role": "assistant", "content": "已为您查询到订单 ORD20260314001，当前状态：已发货，预计3月16日送达。"} ] }

2.2.3 通用对话格式（推荐）

适用场景： 大多数微调框架支持（LLaMA Factory、Axolotl等）

{ "id": "sample_001",

"messages": ${"role": "system", "content": "你是企业知识库助手"}, {"role": "user", "content": "公司年假政策是什么？"}, {"role": "assistant", "content": "根据公司规定，员工年假政策如下：1.入职满1年享有5天年假 2.满3年享有10天 3.满5年享有15天..."}$ ,

"metadata": { "source": "hr_policy_doc", "category": "人力资源", "difficulty": "easy" } }

2.3 偏好优化(DPO)数据格式

适用场景： RLHF替代方案，价值观对齐

{ "prompt": "如何优化公司成本控制？", "chosen": "建议从三个方面优化：1.采购成本：建立供应商评估体系，定期比价 2.运营成本：推行数字化办公，减少纸质流程 3.人力成本：优化组织结构，提升人效...", "rejected": "可以裁员降薪来降低成本。", "metadata": { "reason": "chosen回答更专业且符合企业价值观" } }

2 模型预训练、微调、强化学习的格式

1 训练预料的大小

2 数据格式详解

2.1 预训练数据格式

C4 数据集的主要格式特点

格式：JSONL (JSON Lines)，一行一个JSON对象

2.2 指令微调(SFT)数据格式

2.2.1 Alpaca 格式（单轮对话）

2.2.2 ShareGPT 格式（多轮对话）

2.2.3 通用对话格式（推荐）

2.3 偏好优化(DPO)数据格式