大模型训练数据库Common Crawl

Common Crawl介绍

  • ‌‌Common Crawl是一个非营利组织,致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。
  • Common Crawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据,并将其上传到‌Common Crawl基金会的数据仓库中。该项目从2008年开始,至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据经过处理后,可以用于自然语言处理和机器学习的训练。
  • Common Crawl 每个月都会发布一个快照,包含了随机搜索和采样的 URL 所获得的网页。每个网页包括下面三个信息:
    • 原始网页数据(WARC)
    • 元数据(WAT)
    • 文本提取(WET

数据集地址

Common Crawl数据处理

相关推荐
Java指南修炼19 分钟前
一个开源的大语言模型(LLM)服务工具,支持Llama 3.1、Phi 3、Mistral、Gemma 2 等, 87.4k star你必须拥有(附源码)
人工智能·后端·语言模型·开源·源码
毅凉24 分钟前
Linux笔记
linux·c语言·网络·数据库
Hoper.J1 小时前
9. 什么是 Beam Search?深入理解模型生成策略
深度学习·语言模型·llm·aigc·beam search·集束搜索
罗小爬EX1 小时前
MySql批量迁移数据库
数据库·mysql
言成言成啊1 小时前
PostgreSQL维护——解决索引膨胀和数据死行
数据库·postgresql
WZF-Sang1 小时前
【MySQL】数据类型【mysql当中各自经典的数据类型的学习和使用】
linux·数据库·sql·学习·mysql·adb
挠背小能手1 小时前
达梦DIsql使用方法
数据库
迷茫运维路1 小时前
mysql5.7常用操作命令手册
运维·数据库
不想CRUD的小凯2 小时前
【AI大语言模型应用】使用Ollama搭建本地大语言模型
人工智能·语言模型·自然语言处理
玖石书2 小时前
etcd 集群搭建与测试指南
数据库·etcd·集群