大模型训练数据库Common Crawl

u0133087092024-09-13 21:40

Common Crawl介绍

‌‌Common Crawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。
Common Crawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌Common Crawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据经过处理后，可以用于自然语言处理和机器学习的训练。
Common Crawl 每个月都会发布一个快照，包含了随机搜索和采样的 URL 所获得的网页。每个网页包括下面三个信息：
- 原始网页数据（WARC）
- 元数据（WAT）
- 文本提取（WET）

数据集地址

Common Crawl

Common Crawl数据处理

CCNet
Comcrawl用于查询下载Common Crawl数据。

上一篇：航空维修培训中的虚拟现实辅助工程技术应用

下一篇：QT使用相机拍照

热门推荐

01BongoCat - 跨平台键盘猫动画工具 02智能库存管理的需求预测模型：从业务痛点到落地代码的完整实践 03两千字总结：Codex 国内如何安装和使用的教程，以及如何设置中文回答 04GitHub 镜像站点 05UV安装并设置国内源 062025羊城杯网络安全大赛 wp 07Linux下V2Ray安装配置指南 0846个Nano-banana 精选提示词，持续更新中 09Cursor Plan Mode：AI 终于知道先想后做了 10Spring Boot 实现微信登录，So Easy !