2 模型预训练、微调、强化学习的格式

1 训练预料的大小

训练阶段 数据量级 数据来源 用途
预训练 100亿+ tokens 通用语料+行业语料 构建基础语言能力
继续预训练(CPT) 10亿+ tokens 行业专业文档 注入领域知识
监督微调(SFT) 1万-10万条 指令-响应对 任务对齐
偏好优化(DPO) 5千-5万条 偏好对比数据 价值观对齐
模型规模 预训练数据 SFT数据 DPO数据
7B以下 100亿 tokens 5千-1万条 2千-5千条
7B-13B 500亿 tokens 1万-5万条 5千-1万条
13B以上 1000亿+ tokens 5万-10万条 1万-5万条
工具 用途 链接
LLaMA Factory 微调数据预处理 GitHub开源
Data-Juicer 数据清洗处理 阿里开源
Dataprep 数据准备流水线 Google开源
Label Studio 数据标注平台 开源/企业版

2 数据格式详解

2.1 预训练数据格式

C4 数据集的主要格式特点

  • 文件格式 ‌:.json.gz(压缩的 JSON Lines 文件)
  • 每行一个 JSON 对象‌,对应一个文本样本

适用场景: 基础模型训练、继续预训练

格式:JSONL (JSON Lines),一行一个JSON对象

{"text": "这是第一段预训练文本内容..."} {"text": "这是第二段预训练文本内容..."}

{"text": "这是第三段预训练文本内容..."}

要求:

  • ✅ 纯文本,无特殊标记
  • ✅ 每行独立JSON对象
  • ✅ UTF-8编码
  • ✅ 单条文本建议 512-4096 tokens

2.2 指令微调(SFT)数据格式

2.2.1 Alpaca 格式(单轮对话)

适用场景: 问答、文本生成、分类等单轮任务

{"instruction": "请总结以下会议记录的核心内容", "input": "2026年3月10日产品例会:1.新版本上线时间确定为3月25日 2.用户反馈问题优先级调整 3.下季度OKR目标讨论...", "output": "会议核心内容:1.新版本3月25日上线 2.调整用户反馈问题优先级 3.讨论下季度OKR目标"}

{"instruction": "根据客户需求生成产品推荐方案", "input": "客户行业:制造业;规模:500人;预算:50万;需求:生产管理系统", "output": "推荐方案:针对500人规模的制造企业,建议选择XX生产管理系统,包含生产计划、质量管理、设备维护模块,预估实施周期3个月..."}

{"instruction": "将以下技术文档翻译成英文", "input": "系统支持高并发访问,采用负载均衡技术确保服务稳定性。", "output": "The system supports high-concurrency access and uses load balancing technology to ensure service stability."}

2.2.2 ShareGPT 格式(多轮对话)

适用场景: 客服对话、多轮问答、助手类应用

{ "conversations": [ {"role": "user", "content": "你好,我想查询订单状态"},

{"role": "assistant", "content": "您好,请提供您的订单号,我帮您查询。"},

{"role": "user", "content": "订单号是 ORD20260314001"},

{"role": "assistant", "content": "已为您查询到订单 ORD20260314001,当前状态:已发货,预计3月16日送达。"} ] }

2.2.3 通用对话格式(推荐)

适用场景: 大多数微调框架支持(LLaMA Factory、Axolotl等)

{ "id": "sample_001",

"messages": [ {"role": "system", "content": "你是企业知识库助手"}, {"role": "user", "content": "公司年假政策是什么?"}, {"role": "assistant", "content": "根据公司规定,员工年假政策如下:1.入职满1年享有5天年假 2.满3年享有10天 3.满5年享有15天..."} ],

"metadata": { "source": "hr_policy_doc", "category": "人力资源", "difficulty": "easy" } }

2.3 偏好优化(DPO)数据格式

适用场景: RLHF替代方案,价值观对齐

{ "prompt": "如何优化公司成本控制?", "chosen": "建议从三个方面优化:1.采购成本:建立供应商评估体系,定期比价 2.运营成本:推行数字化办公,减少纸质流程 3.人力成本:优化组织结构,提升人效...", "rejected": "可以裁员降薪来降低成本。", "metadata": { "reason": "chosen回答更专业且符合企业价值观" } }

相关推荐
灵机一物2 小时前
灵机一物AI智能电商小程序(已上线)-产品化架构与全场景功能解析
人工智能
颜酱2 小时前
最小生成树(MST)核心原理 + Kruskal & Prim 算法
javascript·后端·算法
黄焖鸡能干四碗2 小时前
业务数据中台技术方案(PPT)
大数据·数据库·人工智能·安全·需求分析
KG_LLM图谱增强大模型2 小时前
Palantir “本体论”:是跨时代的AI架构,还是精心包装的“建表”骗局?
人工智能
东离与糖宝2 小时前
AI 智能体安全踩坑记:Java 为 OpenClaw 添加权限控制与审计日志实战
java·人工智能
love530love2 小时前
OpenClaw搭配LM Studio VS Ollama:Windows CUDA实战深度对比与完全配置指南
人工智能·windows·vllm·ollama·llama.cpp·lm studio·openclaw
啊哦呃咦唔鱼2 小时前
LeetCode hot100-3 无重复字符的最长子串
算法·leetcode·职场和发展
王侯相将2 小时前
Claude Code 是什么?
人工智能·深度学习
Tony Bai2 小时前
【AI 智能体时代的软件工程】07 任务工程:告别 Prompt,建立“自治契约”
人工智能·prompt