数据挖掘的公开数据集资源非常丰富,覆盖多个领域(金融、医疗、社交网络、图像、文本等)。以下是一些方便实用且广泛认可的公开数据集平台和经典数据集,适合快速验证模型和项目实践:
一、综合数据集平台
-
Kaggle Datasets
🔗 Find Open Datasets and Machine Learning Projects | Kaggle
-
特点:社区活跃,数据集附带代码案例(Notebooks),适合初学者。
-
实用数据集:
-
Titanic
(分类预测) -
House Prices
(回归预测) -
COVID-19 Open Research Dataset
(文本挖掘)
-
-
-
UCI Machine Learning Repository
🔗 UCI Machine Learning Repository
-
特点:学术经典,覆盖分类、回归、聚类等任务。
-
实用数据集:
-
Iris
(分类,150条花卉数据) -
Wine
(分类,葡萄酒成分) -
Adult
(二分类,收入预测)
-
-
-
Google Dataset Search
🔗 https://datasetsearch.research.google.com
- 特点:搜索引擎式查找,聚合全网开放数据集。
二、领域专项数据集
1. 金融与经济
-
Yahoo Finance
- 股票、加密货币历史价格(支持API下载)。
-
World Bank Open Data
- 全球国家经济、人口、环境指标。
2. 社交网络与图数据
-
Stanford Large Network Dataset Collection
🔗 Stanford Large Network Dataset Collection
-
实用数据集:
-
Facebook Social Circles
(社交关系图) -
Amazon Product Co-purchasing
(商品关联图)
-
-
3. 文本与 NLP
-
IMDB Movie Reviews
🔗 Kaggle链接
- 5万条电影评论(情感分析经典)。
-
Common Crawl (海量网页文本)
4. 图像与视频
-
CIFAR-10/100
🔗 官方下载
- 6万张10类/100类小尺寸图像(物体识别)。
-
MNIST(手写数字识别)
- 入门必用,集成在
sklearn
/TensorFlow
中。
- 入门必用,集成在
5. 时间序列
-
Air Passengers
- 经典航空乘客数据(1949-1960),内置在Python库
statsmodels
中。
- 经典航空乘客数据(1949-1960),内置在Python库
-
M4 Competition Data
🔗 https://github.com/Mcompetitions/M4-methods
- 10万条时间序列(预测竞赛数据)。
三、政府与组织开放数据
-
中国政府开放数据平台
🔗 https://data.stats.gov.cn(国家统计局)
- 经济、人口、区域统计数据。
-
NASA Open Data
- 卫星影像、气候数据。
-
European Union Open Data Portal
四、实用建议
-
选数据集看三点:
-
数据质量(是否清洗过)
-
任务匹配度(分类/回归/聚类)
-
数据规模(小样本练手 vs 大数据挑战)
-
-
快速调用方式:
Python库直接加载(示例):
from sklearn.datasets import load_iris, fetch_california_housing
iris = load_iris() # 鸢尾花数据集
housing = fetch_california_housing() # 加州房价数据集
附:5个最适合练手的经典数据集
数据集名称 | 领域 | 任务类型 | 数据量 | 获取方式 |
---|---|---|---|---|
Iris | 生物 | 多分类 | 150 | sklearn.datasets.load_iris |
Titanic | 用户行为 | 二分类 | 891 | Kaggle |
MNIST | 图像 | 多分类 | 70k | torchvision.datasets.MNIST |
Wine Quality | 食品科学 | 回归/分类 | 4.9k | UCI 或 Kaggle |
Spam SMS | NLP | 文本分类 | 5.5k | Kaggle链接 |
提示 :优先选择预处理较完整的数据集(如Kaggle),避免时间浪费在数据清洗上。进阶场景可挑战非结构化数据(如爬虫获取的原始文本/图像)。