2 模型预训练、微调、强化学习的格式

1 训练预料的大小

训练阶段 数据量级 数据来源 用途
预训练 100亿+ tokens 通用语料+行业语料 构建基础语言能力
继续预训练(CPT) 10亿+ tokens 行业专业文档 注入领域知识
监督微调(SFT) 1万-10万条 指令-响应对 任务对齐
偏好优化(DPO) 5千-5万条 偏好对比数据 价值观对齐
模型规模 预训练数据 SFT数据 DPO数据
7B以下 100亿 tokens 5千-1万条 2千-5千条
7B-13B 500亿 tokens 1万-5万条 5千-1万条
13B以上 1000亿+ tokens 5万-10万条 1万-5万条
工具 用途 链接
LLaMA Factory 微调数据预处理 GitHub开源
Data-Juicer 数据清洗处理 阿里开源
Dataprep 数据准备流水线 Google开源
Label Studio 数据标注平台 开源/企业版

2 数据格式详解

2.1 预训练数据格式

C4 数据集的主要格式特点

  • 文件格式 ‌:.json.gz(压缩的 JSON Lines 文件)
  • 每行一个 JSON 对象‌,对应一个文本样本

适用场景: 基础模型训练、继续预训练

格式:JSONL (JSON Lines),一行一个JSON对象

{"text": "这是第一段预训练文本内容..."} {"text": "这是第二段预训练文本内容..."}

{"text": "这是第三段预训练文本内容..."}

要求:

  • ✅ 纯文本,无特殊标记
  • ✅ 每行独立JSON对象
  • ✅ UTF-8编码
  • ✅ 单条文本建议 512-4096 tokens

2.2 指令微调(SFT)数据格式

2.2.1 Alpaca 格式(单轮对话)

适用场景: 问答、文本生成、分类等单轮任务

{"instruction": "请总结以下会议记录的核心内容", "input": "2026年3月10日产品例会:1.新版本上线时间确定为3月25日 2.用户反馈问题优先级调整 3.下季度OKR目标讨论...", "output": "会议核心内容:1.新版本3月25日上线 2.调整用户反馈问题优先级 3.讨论下季度OKR目标"}

{"instruction": "根据客户需求生成产品推荐方案", "input": "客户行业:制造业;规模:500人;预算:50万;需求:生产管理系统", "output": "推荐方案:针对500人规模的制造企业,建议选择XX生产管理系统,包含生产计划、质量管理、设备维护模块,预估实施周期3个月..."}

{"instruction": "将以下技术文档翻译成英文", "input": "系统支持高并发访问,采用负载均衡技术确保服务稳定性。", "output": "The system supports high-concurrency access and uses load balancing technology to ensure service stability."}

2.2.2 ShareGPT 格式(多轮对话)

适用场景: 客服对话、多轮问答、助手类应用

{ "conversations": [ {"role": "user", "content": "你好,我想查询订单状态"},

{"role": "assistant", "content": "您好,请提供您的订单号,我帮您查询。"},

{"role": "user", "content": "订单号是 ORD20260314001"},

{"role": "assistant", "content": "已为您查询到订单 ORD20260314001,当前状态:已发货,预计3月16日送达。"} ] }

2.2.3 通用对话格式(推荐)

适用场景: 大多数微调框架支持(LLaMA Factory、Axolotl等)

{ "id": "sample_001",

"messages": [ {"role": "system", "content": "你是企业知识库助手"}, {"role": "user", "content": "公司年假政策是什么?"}, {"role": "assistant", "content": "根据公司规定,员工年假政策如下:1.入职满1年享有5天年假 2.满3年享有10天 3.满5年享有15天..."} ],

"metadata": { "source": "hr_policy_doc", "category": "人力资源", "difficulty": "easy" } }

2.3 偏好优化(DPO)数据格式

适用场景: RLHF替代方案,价值观对齐

{ "prompt": "如何优化公司成本控制?", "chosen": "建议从三个方面优化:1.采购成本:建立供应商评估体系,定期比价 2.运营成本:推行数字化办公,减少纸质流程 3.人力成本:优化组织结构,提升人效...", "rejected": "可以裁员降薪来降低成本。", "metadata": { "reason": "chosen回答更专业且符合企业价值观" } }

相关推荐
大龄程序员狗哥5 小时前
第47篇:使用Speech-to-Text API快速构建语音应用(操作教程)
人工智能
KKKlucifer5 小时前
数据安全合规自动化:策略落地、审计追溯与风险闭环技术解析
人工智能·安全
RWKV元始智能5 小时前
RWKV超并发项目教程,RWKV-LM训练提速40%
人工智能·rnn·深度学习·自然语言处理·开源
dyj0955 小时前
Dify - (一)、本地部署Dify+聊天助手/Agent
人工智能·docker·容器
IronMurphy5 小时前
【算法四十三】279. 完全平方数
算法
墨染天姬5 小时前
【AI】Hermes的GEPA算法
人工智能·算法
小超同学你好5 小时前
OpenClaw 深度解析系列 · 第8篇:Learning & Adaptation(学习与自适应)
人工智能·语言模型·chatgpt
紫微AI6 小时前
前端文本测量成了卡死一切创新的最后瓶颈,pretext实现突破了
前端·人工智能·typescript
papership6 小时前
【入门级-数据结构-3、特殊树:完全二叉树的数组表示法】
数据结构·算法·链表
码途漫谈6 小时前
Easy-Vibe开发篇阅读笔记(四)——前端开发之结合 Agent Skills 美化界面
人工智能·笔记·ai·开源·ai编程