大语言模型训练的数据集从哪里来？

继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业，再谈谈大语言模型预训练数据集的优化思路。

GPT2使用的数据集是WebText，该数据集大概40GB，由OpenAI创建，主要内容爬取自Reddit平台的出站网络链接对应的网站，每个链接要至少有三个赞，以保障数据质量。
但是WebText数据集不公开，仅OpenAI自己能使用，于是OpenWebText数据集（OpenWebText数据集）应运而生，该数据集搜集超过23亿个链接，大于WebText数据集。
GPT3的训练使用了Common Crawl、WebText2、维基百科、电子书也以及一些多种来源的网络文本、新闻网站数据集等（纽约时报的新闻大概也被爬取了，所以有了后来的诉讼），大概570GB。
以下是llama开源模型早期版本的预训练数据集来源，来源于多个数据集，大概4.8TB，比GPT3多了Github、ArXiv（开放的学术论文分享平台，Kaggle上也有它的数据集）还有StackExchange。

进一步，企业的私有数据没有被用来训练。
再进一步，物理世界的许多数据并没有被捕获，比如线下大会的视频如果没有传到网络就无法被纳入训练集。智能汽车将会提供超大量的数据，未来AR眼镜如果能普及将会是一个更大的数据来源。
所以预训练用的数据集其实还可以优化，还有以下思路可以参考：