大模型训练数据库Common Crawl

Common Crawl介绍

  • ‌‌Common Crawl是一个非营利组织,致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。
  • Common Crawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据,并将其上传到‌Common Crawl基金会的数据仓库中。该项目从2008年开始,至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据经过处理后,可以用于自然语言处理和机器学习的训练。
  • Common Crawl 每个月都会发布一个快照,包含了随机搜索和采样的 URL 所获得的网页。每个网页包括下面三个信息:
    • 原始网页数据(WARC)
    • 元数据(WAT)
    • 文本提取(WET

数据集地址

Common Crawl数据处理

相关推荐
廿一夏3 小时前
MySql存储引擎与索引
数据库·sql·mysql
lzhdim5 小时前
SQL 入门 15:SQL 事务:从 ACID 到四种常见的并发问题
数据库·sql
瀚高PG实验室5 小时前
瀚高企业版V9.1.1在pg_restore还原备份文件时提示extract函数语法问题
数据库·瀚高数据库
TDengine (老段)5 小时前
TDengine Tag 设计哲学与 Schema 变更机制
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
YOU OU6 小时前
Spring IoC&DI
java·数据库·spring
Muscleheng7 小时前
Navicat连接postgresql时出现‘datlastsysoid does not exist‘报错
数据库·postgresql
风落无尘8 小时前
第九章《语言与理解》 完整学习资料
gpt·rnn·语言模型·transformer
罗超驿8 小时前
18.事务的隔离性和隔离级别:MySQL面试高频考点全解析
数据库·mysql·面试
malog_8 小时前
大语言模型后训练全解析
人工智能·深度学习·机器学习·ai·语言模型
jran-8 小时前
Redis 命令
数据库·redis·缓存