大语言模型训练的数据集从哪里来?

继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业,再谈谈大语言模型预训练数据集的优化思路。

  1. GPT2使用的数据集是WebText,该数据集大概40GB,由OpenAI创建,主要内容爬取自Reddit平台的出站网络链接对应的网站,每个链接要至少有三个赞,以保障数据质量。

  2. 但是WebText数据集不公开,仅OpenAI自己能使用,于是OpenWebText数据集(OpenWebText数据集)应运而生,该数据集搜集超过23亿个链接,大于WebText数据集。

  3. GPT3的训练使用了Common Crawl、WebText2、维基百科、电子书也以及一些多种来源的网络文本、新闻网站数据集等(纽约时报的新闻大概也被爬取了,所以有了后来的诉讼),大概570GB。

  4. 以下是llama开源模型早期版本的预训练数据集来源,来源于多个数据集,大概4.8TB,比GPT3多了Github、ArXiv(开放的学术论文分享平台,Kaggle上也有它的数据集)还有StackExchange。

  1. 写到这里可以说明为什么说互联网的数据没有被耗尽:
  • 许多网站的数据是不可爬取的,有研究认为类似Twitter、Faceboo等这种网站可爬取的数据只占20%左右
  • 封闭APP的数据不可爬取,以中文互联网为例,现在APP的数据要远大于PC互联网数据了,最典型比如微信、小红书等这些APP的数据非常多、非常有价值,但是无法获取
  • 互联网数据在实时更新,不断有新的数据进来
  1. 进一步,企业的私有数据没有被用来训练。

  2. 再进一步,物理世界的许多数据并没有被捕获,比如线下大会的视频如果没有传到网络就无法被纳入训练集。智能汽车将会提供超大量的数据,未来AR眼镜如果能普及将会是一个更大的数据来源。

  3. 所以预训练用的数据集其实还可以优化,还有以下思路可以参考:

  • 预训练的数据集来源优化,获取更高质量的数据集
  • 模型训练的时候为了节省资源会对原数据进行压缩降维,如果数据集高质量点但小点,可以给减小压缩空间

++参考来源:++
大语言模型(LLM)预训练数据集调研分析

大模型训练数据集分析:多样性和挑战-CSDN博客

相关推荐
码云数智-大飞1 小时前
大模型幻觉:成因解析与有效避免策略
人工智能·深度学习
我星期八休息1 小时前
IT疑难杂症诊疗室:AI时代工程师Superpowers进化论
linux·开发语言·数据结构·人工智能·python·散列表
代码小书生1 小时前
math,一个基础的 Python 库!
人工智能·python·算法
暗夜猎手-大魔王1 小时前
转载--AI Agent 架构设计:上下文窗口压缩(OpenClaw、Claude Code、Hermes Agent 对比)
人工智能
AI科技星1 小时前
全域数学·数术本源·高维代数卷(72分册)【乖乖数学】
人工智能·算法·数学建模·数据挖掘·量子计算
生成论实验室1 小时前
《事件关系阴阳博弈动力学:识势应势之道》第一篇:生成正在发生——从《即事经》到事件-关系网络
人工智能·科技·算法·架构·创业创新
Mr数据杨1 小时前
四子棋智能体构建与在线对抗决策应用
机器学习·数据分析·kaggle
DanCheOo1 小时前
AI 应用的安全架构:Prompt 注入、数据泄露、权限边界
前端·人工智能·prompt·安全架构
刘~浪地球2 小时前
DeepSeek V4 安全性与伦理:AI发展之路的思考
人工智能·deepseek v4
DanCheOo2 小时前
开源 | ai-memory v2.6.2:不用配 API Key,一行命令把 Cursor 对话变成结构化知识库
人工智能·ai·ai编程