大语言模型预训练数据集及清洗框架介绍【简单版】

目录

[一、常见数据集类型 📚](#一、常见数据集类型 📚)

[二、数据清洗框架对比 🧹](#二、数据清洗框架对比 🧹)

SlimPajama

MNBVC

CC-NET

[三、理想的清洗框架 💯](#三、理想的清洗框架 💯)

[四、数据清洗核心流程 🔄](#四、数据清洗核心流程 🔄)

[五、现有数据集反思 🤔](#五、现有数据集反思 🤔)

[六 中文预训练数据集 🇨🇳](#六 中文预训练数据集 🇨🇳)

[1. Wuanjuan 1.0](#1. Wuanjuan 1.0)

[2. WuDaoCorpora](#2. WuDaoCorpora)

[3. CLUECorpus2020](#3. CLUECorpus2020)

[多语种数据集 🌍](#多语种数据集 🌍)

[1. CC100](#1. CC100)

[2. OSCAR](#2. OSCAR)

[3. ROOTS](#3. ROOTS)

[4. RedPajama-V2](#4. RedPajama-V2)


今天给大家带来一篇超简单的大语言模型预训练数据集及清洗框架总结,建议收藏!👍

一、常见数据集类型 📚

  1. 网页数据 🌐
  2. 书籍 📖
  3. 企业年报 📊
  4. 法律文书 ⚖️
  5. 问答 ❓
  6. 新闻 📰
  7. 百科 🔍
  8. 考试题 ✍️
  9. 专利 💡
  10. 评论 💬
  11. 博客 📝
  12. 歌词 🎵
  13. 古诗文 🖋️
  14. 中英平行语料 🇨🇳🇬🇧

二、数据清洗框架对比 🧹

SlimPajama

  • 擅长:大规模英文数据去重
  • 优点:支持并行和内存优化,可处理万亿级数据
  • 缺点:仅支持英文

MNBVC

  • 擅长:中文语料清洗
  • 优点:支持文本提取、去重和质量评分
  • 缺点:仅支持文档级别去重

CC-NET

  • 擅长:多语种清洗
  • 优点:实现完整清洗链路,包括语种分类、规则过滤等
  • 缺点:安装复杂,缺乏多粒度去重

三、理想的清洗框架 💯

  1. 支持多语种多格式输入 🌍
  2. 具备大规模并行和可扩展能力 🚀
  3. 支持自定义规则和功能 🛠️
  4. 支持多粒度去重(段落、章节、文档) 🔍
  5. 模块化、可配置、可扩展 🧩
  6. 提供丰富的规则库 📚

四、数据清洗核心流程 🔄

  1. 预处理:抽取段落,计算哈希值
  2. 去重、分类和打分:
    • 删除重复段落
    • 语种分类(如中文、英文、德文等)
    • 质量打分(分为Head、Middle、Tail三级)
  3. 重组:按语种和质量分类重组,保存为Json文件

五、现有数据集反思 🤔

  1. 数据规模:中英高质量文本已初步对齐开源模型(约20T Tokens)
  2. 训练语种:从单/双语种向多语种发展
  3. 采样方式:不均匀采样 vs 均匀采样(各有优势)
  4. 去重策略:精确去重+模糊去重结合
  5. 质量评估:缺乏统一标准,常用方法:
    • 质量分类器+阈值筛选
    • 文本困惑度(PPL)指标
    • 多轮人工校验

六 中文预训练数据集 🇨🇳

1. Wuanjuan 1.0

🔍 由上海AI实验室构建

📊 规模:552 GB中文文本

🧹 经过细粒度清洗、去重和价值对齐

⚠️ 注意:与MNBVC有重叠,使用前需去重

2. WuDaoCorpora

🏫 北京智源人工智能研究院出品

📚 包含文本、对话、图文对

🏷️ 50+行业数据标签

🧼 从100TB原始网页数据中清洗而来

3. CLUECorpus2020

🌐 从Common Crawl提取

📏 规模:100 GB

✅ 已用于成功训练Bert-base模型

🚨 仍存在一些质量问题,如繁体字、广告文本等

多语种数据集 🌍

1. CC100

🗣️ 100种语言

📊 总规模:2.5TB

🧠 用于训练XLM-R模型

2. OSCAR

🌐 基于Common Crawl

📊 总规模:6.3TB

🗨️ 151种语言

3. ROOTS

🌈 59种语言(46种自然语言+13种编程语言)

📊 规模:1.6TB

🤖 用于训练BLOOM模型

4. RedPajama-V2

🗣️ 5种主要语言

📊 规模:30T Tokens(约100TB)

🧹 采用CC-NET清洗框架

相关推荐
北京搜维尔科技有限公司18 分钟前
搜维尔科技:【应用】Xsens在荷兰车辆管理局人体工程学评估中的应用
人工智能·安全
说私域21 分钟前
基于开源 AI 智能名片 S2B2C 商城小程序的视频号交易小程序优化研究
人工智能·小程序·零售
YRr YRr21 分钟前
深度学习:Transformer Decoder详解
人工智能·深度学习·transformer
知来者逆26 分钟前
研究大语言模型在心理保健智能顾问的有效性和挑战
人工智能·神经网络·机器学习·语言模型·自然语言处理
云起无垠35 分钟前
技术分享 | 大语言模型赋能软件测试:开启智能软件安全新时代
人工智能·安全·语言模型
老艾的AI世界1 小时前
新一代AI换脸更自然,DeepLiveCam下载介绍(可直播)
图像处理·人工智能·深度学习·神经网络·目标检测·机器学习·ai换脸·视频换脸·直播换脸·图片换脸
翔云API1 小时前
PHP静默活体识别API接口应用场景与集成方案
人工智能
浊酒南街1 小时前
吴恩达深度学习笔记:卷积神经网络(Foundations of Convolutional Neural Networks)4.9-4.10
人工智能·深度学习·神经网络·cnn
Tony聊跨境2 小时前
独立站SEO类型及优化:来检查这些方面你有没有落下
网络·人工智能·tcp/ip·ip
懒惰才能让科技进步2 小时前
从零学习大模型(十二)-----基于梯度的重要性剪枝(Gradient-based Pruning)
人工智能·深度学习·学习·算法·chatgpt·transformer·剪枝