大模型训练数据库Common Crawl

Common Crawl介绍

  • ‌‌Common Crawl是一个非营利组织,致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。
  • Common Crawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据,并将其上传到‌Common Crawl基金会的数据仓库中。该项目从2008年开始,至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据经过处理后,可以用于自然语言处理和机器学习的训练。
  • Common Crawl 每个月都会发布一个快照,包含了随机搜索和采样的 URL 所获得的网页。每个网页包括下面三个信息:
    • 原始网页数据(WARC)
    • 元数据(WAT)
    • 文本提取(WET

数据集地址

Common Crawl数据处理

相关推荐
甘露s几秒前
深入理解 Redis:事务、持久化与过期策略全解析
数据库·redis
珠海西格8 分钟前
远动通信装置为何是电网安全运行的“神经中枢”?
大数据·服务器·网络·数据库·分布式·安全·区块链
小宇的天下13 分钟前
Calibre 3Dstack --每日一个命令day18【floating_trace】(3-18)
服务器·前端·数据库
星空露珠18 分钟前
速算24点检测生成核心lua
开发语言·数据库·算法·游戏·lua
shangjian00724 分钟前
AI-大语言模型LLM-概念术语-Dropout
人工智能·语言模型·自然语言处理
what丶k33 分钟前
SpringBoot3 缓存抽象深度实践:Caffeine+Redis多级缓存,穿透/雪崩/击穿防御全方案
数据库·redis·缓存
咖啡の猫34 分钟前
Redis简单介绍
数据库·redis·缓存
-XWB-35 分钟前
【Oracle】Oracle诊断系列(4/6):表空间与对象管理——存储优化与空间规划
数据库·oracle
山峰哥42 分钟前
SQL优化全解析:从索引策略到查询性能飞跃
大数据·数据库·sql·编辑器·深度优先
余俊晖1 小时前
多模态视觉语言模型:Molmo2训练数据、训练配方
人工智能·语言模型·自然语言处理