大模型训练数据库Common Crawl

Common Crawl介绍

  • ‌‌Common Crawl是一个非营利组织,致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。
  • Common Crawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据,并将其上传到‌Common Crawl基金会的数据仓库中。该项目从2008年开始,至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据经过处理后,可以用于自然语言处理和机器学习的训练。
  • Common Crawl 每个月都会发布一个快照,包含了随机搜索和采样的 URL 所获得的网页。每个网页包括下面三个信息:
    • 原始网页数据(WARC)
    • 元数据(WAT)
    • 文本提取(WET

数据集地址

Common Crawl数据处理

相关推荐
code小毛孩9 小时前
如何简单的并且又能大幅度降低任务队列的锁粒度、提高吞吐量?
java·jvm·数据库
风随心飞飞9 小时前
linux 环境下mysql 数据库自动备份和清库 通过crontab 创建定时任务实现mysql数据库备份
linux·数据库·mysql
奥尔特星云大使10 小时前
读写分离中间件简介
数据库·mysql·中间件·读写分离
友莘居士10 小时前
高效处理 Excel 海量数据入库:编程脚本、CSV 中间件、图形工具优化全攻略
数据库·中间件·excel·csv·海量数据·入库
Han.miracle11 小时前
数据库圣经第二章——简单的my.ini基础配置介绍
数据库
聚客AI11 小时前
系统提示的“消亡”?上下文工程正在重新定义人机交互规则
图像处理·人工智能·pytorch·语言模型·自然语言处理·chatgpt·gpt-3
八怪11 小时前
KILL MTS的一个worker线程会怎么样
数据库
-Xie-12 小时前
Mysql杂志(三十一)——Join连接算法与子查询、排序优化
数据库·mysql
MoyiTech12 小时前
【论文阅读】LANGUAGE MODELS CAN LEARN FROM VERBAL FEEDBACK WITHOUT SCALAR REWARDS
论文阅读·人工智能·语言模型
程序新视界13 小时前
在连表查询场景下,MySQL隐式转换存在的坑
数据库·mysql·dba