目录
[一、常见数据集类型 📚](#一、常见数据集类型 📚)
[二、数据清洗框架对比 🧹](#二、数据清洗框架对比 🧹)
[三、理想的清洗框架 💯](#三、理想的清洗框架 💯)
[四、数据清洗核心流程 🔄](#四、数据清洗核心流程 🔄)
[五、现有数据集反思 🤔](#五、现有数据集反思 🤔)
[六 中文预训练数据集 🇨🇳](#六 中文预训练数据集 🇨🇳)
[1. Wuanjuan 1.0](#1. Wuanjuan 1.0)
[2. WuDaoCorpora](#2. WuDaoCorpora)
[3. CLUECorpus2020](#3. CLUECorpus2020)
[多语种数据集 🌍](#多语种数据集 🌍)
[1. CC100](#1. CC100)
[2. OSCAR](#2. OSCAR)
[3. ROOTS](#3. ROOTS)
[4. RedPajama-V2](#4. RedPajama-V2)
今天给大家带来一篇超简单的大语言模型预训练数据集及清洗框架总结,建议收藏!👍
一、常见数据集类型 📚
- 网页数据 🌐
- 书籍 📖
- 企业年报 📊
- 法律文书 ⚖️
- 问答 ❓
- 新闻 📰
- 百科 🔍
- 考试题 ✍️
- 专利 💡
- 评论 💬
- 博客 📝
- 歌词 🎵
- 古诗文 🖋️
- 中英平行语料 🇨🇳🇬🇧
二、数据清洗框架对比 🧹
SlimPajama
- 擅长:大规模英文数据去重
- 优点:支持并行和内存优化,可处理万亿级数据
- 缺点:仅支持英文
MNBVC
- 擅长:中文语料清洗
- 优点:支持文本提取、去重和质量评分
- 缺点:仅支持文档级别去重
CC-NET
- 擅长:多语种清洗
- 优点:实现完整清洗链路,包括语种分类、规则过滤等
- 缺点:安装复杂,缺乏多粒度去重
三、理想的清洗框架 💯
- 支持多语种多格式输入 🌍
- 具备大规模并行和可扩展能力 🚀
- 支持自定义规则和功能 🛠️
- 支持多粒度去重(段落、章节、文档) 🔍
- 模块化、可配置、可扩展 🧩
- 提供丰富的规则库 📚
四、数据清洗核心流程 🔄
- 预处理:抽取段落,计算哈希值
- 去重、分类和打分:
- 删除重复段落
- 语种分类(如中文、英文、德文等)
- 质量打分(分为Head、Middle、Tail三级)
- 重组:按语种和质量分类重组,保存为Json文件
五、现有数据集反思 🤔
- 数据规模:中英高质量文本已初步对齐开源模型(约20T Tokens)
- 训练语种:从单/双语种向多语种发展
- 采样方式:不均匀采样 vs 均匀采样(各有优势)
- 去重策略:精确去重+模糊去重结合
- 质量评估:缺乏统一标准,常用方法:
- 质量分类器+阈值筛选
- 文本困惑度(PPL)指标
- 多轮人工校验
六 中文预训练数据集 🇨🇳
1. Wuanjuan 1.0
🔍 由上海AI实验室构建
📊 规模:552 GB中文文本
🧹 经过细粒度清洗、去重和价值对齐
⚠️ 注意:与MNBVC有重叠,使用前需去重
2. WuDaoCorpora
🏫 北京智源人工智能研究院出品
📚 包含文本、对话、图文对
🏷️ 50+行业数据标签
🧼 从100TB原始网页数据中清洗而来
3. CLUECorpus2020
🌐 从Common Crawl提取
📏 规模:100 GB
✅ 已用于成功训练Bert-base模型
🚨 仍存在一些质量问题,如繁体字、广告文本等
多语种数据集 🌍
1. CC100
🗣️ 100种语言
📊 总规模:2.5TB
🧠 用于训练XLM-R模型
2. OSCAR
🌐 基于Common Crawl
📊 总规模:6.3TB
🗨️ 151种语言
3. ROOTS
🌈 59种语言(46种自然语言+13种编程语言)
📊 规模:1.6TB
🤖 用于训练BLOOM模型
4. RedPajama-V2
🗣️ 5种主要语言
📊 规模:30T Tokens(约100TB)
🧹 采用CC-NET清洗框架