以下是一些常见的机器学习数据集下载渠道:
- Google 数据集搜索引擎 :可以通过文本搜索数据集,并能按日期、数据格式和使用权限等进行过滤。地址:https://datasetsearch.research.google.com/
- Kaggle :这是世界领先的数据科学平台,拥有大量数据集,还允许用户发布数据集及与其他数据科学家交流和竞争。地址:https://www.kaggle.com/datasets
- UCI 机器学习存储库 :加州大学尔湾分校提供的数据库,有 550 多个数据集,可按问题类型(如分类、回归和聚类等)进行筛选。地址:UCI Machine Learning Repository
- 亚马逊数据集 :包含来自不同领域的数据集,具有一些较大型的数据集。地址:Registry of Open Data on AWS
- 微软数据集 :在公共云中提供数据存储库以促进全球研究社区协作,并提供已用于发表研究的整理数据集。地址:https://azure.microsoft.com/en-us/services/open-datasets/catalog/?q+
- 数据世界(data.world) :与 Google 数据集搜索引擎类似,搜索深度较好,能显示数据集及可能包含所需数据的子文件。地址:The Data Catalog Platform | data.world
- 欧洲核子研究组织开放数据门户 :提供有关最小物理量(粒子物理学)的数据。地址:CERN Open Data Portal
- Lionbridge AI 数据集 :Lionbridge 公司的网站上展示了各种数据集,还有相关文章介绍,例如用于机器学习的气候变化数据集、免费数据集等。地址:https://lionbridge.ai/datasets/
- Awesome 公共数据集(https://github.com/awesomedata/awesome-public-datasets):这是一个由社区公开维护的按主题分类的数据集清单,涵盖了生物学、经济学、教育学等多个领域,其中多数数据集免费,但使用前需检查许可要求。
- 计算机视觉数据集(VisualData - Search Engine for Computer Vision Datasets):如果你从事图像处理、计算机视觉或深度学习工作,这里有许多可用于构建计算机视觉模型的数据集,能通过特定的计算机视觉任务查找相应数据集。
还有一些其他途径可以获取数据集,比如:
- 企业产生的用户数据:如百度指数(百度指数)、阿里指数(https://alizs.taobao.com/TBI )等。
- Kaggle :拥有各种有趣的数据集,涵盖多个领域。链接为:https://www.kaggle.com/
- UCI 机器学习库 :是较为古老的数据集源之一,有大量用户贡献的数据集,多数较为干净,可直接下载且无需注册。链接为:http://mlr.cs.umass.edu/ml/
- AI Studio 数据集 :百度的人工智能学习与实训社区提供的开放数据集。链接为:开放数据集-飞桨AI Studio星河社区
- 天池数据集 :阿里系唯一对外开放数据分享平台。链接为:天池数据集_阿里系唯一对外开放数据分享平台-阿里云天池
- Papers With Code 数据集 :可以找到与相关论文对应的数据集。链接为:Machine Learning Datasets | Papers With Code
- Graviti Open Datasets :提供公开数据集下载,包括图像识别、NLP 等领域的数据集。链接为:https://gas.graviti.cn/open-datasets
- Huggingface 数据集 :链接为:https://huggingface.co/datasets
- CLUE 数据集 :https://www.cluebenchmarks.com/dataSet_search.html
- VisualData :分好类的计算机视觉数据集,可以进行搜索。链接为:VisualData - Search Engine for Computer Vision Datasets
一些具体的数据集如下:
-
ImageNet :知名的图像数据集,李飞飞参与创建,对计算机视觉领域影响深远。链接为:ImageNet
-
MS COCO :也是知名的计算机视觉数据集。链接为:http://mscoco.org/
-
斯坦福狗子数据集 :包含20580张狗子的图片,涉及120个不同品种。链接为:Stanford Dogs dataset for Fine-Grained Visual Categorization
-
安然数据集 :来自安然高级管理层的电子邮件数据。链接为:Enron Email Dataset
-
亚马逊评论 :包含约3500万条亚马逊上18年来的评论,包括产品和用户信息、评级及文本审核等数据。链接为:SNAP: Web data: Amazon reviews
-
20 万英文笑话数据集 :GitHub - taivop/joke-dataset: A dataset of 200k English plaintext jokes.
-
Berkeley 图像分割数据集 BSDS500 :UC Berkeley Computer Vision Group - Contour Detection and Image Segmentation - Resources
-
ADE20K 场景感知/解析/分割/多目标识别数据集 :ADE20K dataset