2 模型预训练、微调、强化学习的格式

1 训练预料的大小

训练阶段 数据量级 数据来源 用途
预训练 100亿+ tokens 通用语料+行业语料 构建基础语言能力
继续预训练(CPT) 10亿+ tokens 行业专业文档 注入领域知识
监督微调(SFT) 1万-10万条 指令-响应对 任务对齐
偏好优化(DPO) 5千-5万条 偏好对比数据 价值观对齐
模型规模 预训练数据 SFT数据 DPO数据
7B以下 100亿 tokens 5千-1万条 2千-5千条
7B-13B 500亿 tokens 1万-5万条 5千-1万条
13B以上 1000亿+ tokens 5万-10万条 1万-5万条
工具 用途 链接
LLaMA Factory 微调数据预处理 GitHub开源
Data-Juicer 数据清洗处理 阿里开源
Dataprep 数据准备流水线 Google开源
Label Studio 数据标注平台 开源/企业版

2 数据格式详解

2.1 预训练数据格式

C4 数据集的主要格式特点

  • 文件格式 ‌:.json.gz(压缩的 JSON Lines 文件)
  • 每行一个 JSON 对象‌,对应一个文本样本

适用场景: 基础模型训练、继续预训练

格式:JSONL (JSON Lines),一行一个JSON对象

{"text": "这是第一段预训练文本内容..."} {"text": "这是第二段预训练文本内容..."}

{"text": "这是第三段预训练文本内容..."}

要求:

  • ✅ 纯文本,无特殊标记
  • ✅ 每行独立JSON对象
  • ✅ UTF-8编码
  • ✅ 单条文本建议 512-4096 tokens

2.2 指令微调(SFT)数据格式

2.2.1 Alpaca 格式(单轮对话)

适用场景: 问答、文本生成、分类等单轮任务

{"instruction": "请总结以下会议记录的核心内容", "input": "2026年3月10日产品例会:1.新版本上线时间确定为3月25日 2.用户反馈问题优先级调整 3.下季度OKR目标讨论...", "output": "会议核心内容:1.新版本3月25日上线 2.调整用户反馈问题优先级 3.讨论下季度OKR目标"}

{"instruction": "根据客户需求生成产品推荐方案", "input": "客户行业:制造业;规模:500人;预算:50万;需求:生产管理系统", "output": "推荐方案:针对500人规模的制造企业,建议选择XX生产管理系统,包含生产计划、质量管理、设备维护模块,预估实施周期3个月..."}

{"instruction": "将以下技术文档翻译成英文", "input": "系统支持高并发访问,采用负载均衡技术确保服务稳定性。", "output": "The system supports high-concurrency access and uses load balancing technology to ensure service stability."}

2.2.2 ShareGPT 格式(多轮对话)

适用场景: 客服对话、多轮问答、助手类应用

{ "conversations": [ {"role": "user", "content": "你好,我想查询订单状态"},

{"role": "assistant", "content": "您好,请提供您的订单号,我帮您查询。"},

{"role": "user", "content": "订单号是 ORD20260314001"},

{"role": "assistant", "content": "已为您查询到订单 ORD20260314001,当前状态:已发货,预计3月16日送达。"} ] }

2.2.3 通用对话格式(推荐)

适用场景: 大多数微调框架支持(LLaMA Factory、Axolotl等)

{ "id": "sample_001",

"messages": {"role": "system", "content": "你是企业知识库助手"}, {"role": "user", "content": "公司年假政策是什么?"}, {"role": "assistant", "content": "根据公司规定,员工年假政策如下:1.入职满1年享有5天年假 2.满3年享有10天 3.满5年享有15天..."} ,

"metadata": { "source": "hr_policy_doc", "category": "人力资源", "difficulty": "easy" } }

2.3 偏好优化(DPO)数据格式

适用场景: RLHF替代方案,价值观对齐

{ "prompt": "如何优化公司成本控制?", "chosen": "建议从三个方面优化:1.采购成本:建立供应商评估体系,定期比价 2.运营成本:推行数字化办公,减少纸质流程 3.人力成本:优化组织结构,提升人效...", "rejected": "可以裁员降薪来降低成本。", "metadata": { "reason": "chosen回答更专业且符合企业价值观" } }

相关推荐
字节跳动数据库2 小时前
文章分享——相似函数处理方法
人工智能·后端·程序员
Bigfish_coding2 小时前
前端转agent-【python】-12 LangChain 入门实战:RAG + LCEL 链式调用
人工智能
程序员cxuan3 小时前
读懂 Claude Code 架构分析系列,第一篇,开始!
人工智能·后端·架构
饼干哥哥3 小时前
扣子3.0测评:我让 Codex 和 Claude Code 住同一个桌面,结果它们打架了!
人工智能·开源·代码规范
Token炼金师4 小时前
IP-Adapter:解耦交叉注意力如何让扩散模型看见图像
人工智能
Bigfish_coding4 小时前
前端转agent-【python】-11 LangGraph 高级特性:时间旅行与人工介入
人工智能
Token炼金师4 小时前
从safetensors到像素:ComfyUI Checkpoint加载机制的底层拆解
人工智能
AI闲人4 小时前
AI 写代码越来越快,为什么 Code Review 反而更慢了?
人工智能·code review·ai 编程
武子康4 小时前
调查研究-202 SGLang 深度解析:为什么大模型推理框架不只是“把模型跑起来“
人工智能·openai·agent
我是大卫4 小时前
Trae 读取 agents.md 并驱动 AI 完整底层原理
人工智能