数据挖掘常用公开数据集

数据挖掘的公开数据集资源非常丰富，覆盖多个领域（金融、医疗、社交网络、图像、文本等）。以下是一些方便实用且广泛认可的公开数据集平台和经典数据集，适合快速验证模型和项目实践：

Kaggle Datasets

🔗 Find Open Datasets and Machine Learning Projects | Kaggle
- 特点：社区活跃，数据集附带代码案例（Notebooks），适合初学者。
- 实用数据集：
  - Titanic（分类预测）
  - House Prices（回归预测）
  - COVID-19 Open Research Dataset（文本挖掘）
UCI Machine Learning Repository

🔗 UCI Machine Learning Repository
- 特点：学术经典，覆盖分类、回归、聚类等任务。
- 实用数据集：
  - Iris（分类，150条花卉数据）
  - Wine（分类，葡萄酒成分）
  - Adult（二分类，收入预测）
Google Dataset Search

🔗 https://datasetsearch.research.google.com
- 特点：搜索引擎式查找，聚合全网开放数据集。

Stanford Large Network Dataset Collection

🔗 Stanford Large Network Dataset Collection
- 实用数据集：
  - Facebook Social Circles（社交关系图）
  - Amazon Product Co-purchasing（商品关联图）

Air Passengers
- 经典航空乘客数据（1949-1960），内置在Python库statsmodels中。
M4 Competition Data

🔗 https://github.com/Mcompetitions/M4-methods
- 10万条时间序列（预测竞赛数据）。

Python库直接加载（示例）：

复制代码

from sklearn.datasets import load_iris, fetch_california_housing
iris = load_iris()  # 鸢尾花数据集
housing = fetch_california_housing()  # 加州房价数据集

数据集名称	领域	任务类型	数据量	获取方式
Iris	生物	多分类	150	`sklearn.datasets.load_iris`
Titanic	用户行为	二分类	891	Kaggle
MNIST	图像	多分类	70k	`torchvision.datasets.MNIST`
Wine Quality	食品科学	回归/分类	4.9k	UCI 或 Kaggle
Spam SMS	NLP	文本分类	5.5k	Kaggle链接

提示：优先选择预处理较完整的数据集（如Kaggle），避免时间浪费在数据清洗上。进阶场景可挑战非结构化数据（如爬虫获取的原始文本/图像）。