第一章 绪论------《数据挖掘(主编:吕欣、王梦宁)》读书笔记
参考资料:
- 《数据挖掘(主编:吕欣、王梦宁)》
- XL-lab-bigdata/DataMining
- CSDN / 知乎相关学习笔记
- 《复杂网络》
- 《Python 大数据实践》
- 《大数据平台架构》
1. 数据挖掘的时代背景
1.1 大数据时代的到来
随着互联网、移动通信、物联网与社交媒体的发展,人类社会已经进入"大数据时代"。
目前数据具有典型的 4V 特征:
| 特征 | 英文 | 含义 |
|---|---|---|
| Volume | 数据量大 | TB、PB、EB级数据 |
| Velocity | 数据速度快 | 实时流式数据 |
| Variety | 数据多样 | 文本、图像、轨迹、网络 |
| Value | 价值密度低 | 有价值信息占比低 |
传统数据分析方法已经难以处理:
- 海量数据
- 高维数据
- 动态数据
- 非线性复杂系统
因此,数据挖掘逐渐成为现代数据科学的重要基础。
2. 什么是数据挖掘
2.1 数据挖掘定义
数据挖掘(Data Mining):
从大量、不完全、有噪声、随机的数据中,
自动提取潜在有价值知识与模式的过程。
其核心目标是:
text
数据(Data)
↓
信息(Information)
↓
知识(Knowledge)
↓
决策(Decision)
2.2 数据挖掘与传统统计分析的区别
| 对比维度 | 传统统计分析 | 数据挖掘 |
|---|---|---|
| 数据规模 | 小样本 | 海量数据 |
| 数据类型 | 结构化 | 多源异构 |
| 分析目标 | 验证假设 | 自动发现规律 |
| 方法特点 | 理论驱动 | 数据驱动 |
| 可扩展性 | 较弱 | 强 |
3. 数据、信息与知识
3.1 三者关系
原始数据
数据清洗
统计分析
信息提取
知识发现
决策支持
3.2 数据层次分析
| 层次 | 特点 | 示例 |
|---|---|---|
| 数据 | 原始记录 | GPS轨迹 |
| 信息 | 加工结果 | 出行热点 |
| 知识 | 潜在规律 | 城市中心吸引效应 |
4. 数据挖掘与相关学科
4.1 学科交叉关系
数据挖掘
数据库
统计学
机器学习
人工智能
复杂网络
模式识别
5. 数据挖掘的核心任务
5.1 分类(Classification)
监督学习问题:
根据已知标签训练模型,对未知样本进行预测。
Python 示例
python
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y)
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)
pred = clf.predict(X_test)
5.2 聚类(Clustering)
无监督学习:
自动发现数据中的潜在结构。
K-Means 聚类流程
否
是
随机初始化中心
计算样本距离
重新划分簇
更新中心
是否收敛
结束
Python 示例
python
from sklearn.cluster import KMeans
model = KMeans(
n_clusters=4,
random_state=42
)
model.fit(X)
labels = model.labels_
5.3 回归分析(Regression)
线性回归模型:
math
y=\beta_0+\beta_1x+\epsilon
Python 示例
python
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
6. 数据挖掘的一般流程
数据采集
数据清洗
特征工程
模型训练
模型评估
知识解释
7. 模型评估指标
分类任务指标
| 指标 | 含义 |
|---|---|
| Accuracy | 准确率 |
| Precision | 精确率 |
| Recall | 召回率 |
| F1-score | 综合指标 |
回归任务指标
| 指标 | 含义 |
|---|---|
| RMSE | 均方根误差 |
| MAE | 平均绝对误差 |
| R² | 拟合优度 |
R²公式:
math
R^2=1-\frac{\sum(y_i-\hat y_i)^2}{\sum(y_i-\bar y)^2}
8. 大数据平台架构
Hadoop 生态
Hadoop Ecosystem
HDFS
MapReduce
Hive
Spark
HBase
9. 数据挖掘在复杂系统中的应用
城市科学
应用包括:
- 城市功能区识别
- mobility regime
- 碳排放预测
- 交通优化
疫情传播
text
Mobility Network
+
SEIR Model
+
Machine Learning
↓
Epidemic Prediction
10. 个人理解与思考
我认为:
数据挖掘不仅是一种算法工具,
更是一种理解复杂系统的方法。
未来数据挖掘的重要方向包括:
| 方向 | 特点 |
|---|---|
| 图神经网络 | 网络结构学习 |
| 因果推断 | 超越相关性 |
| 时空数据挖掘 | 动态系统 |
| 可解释AI | 增强可信度 |
| 多模态学习 | 图文融合 |
11. 总结
数据挖掘本质上是:
从复杂数据中发现规律、
提取知识、
辅助决策的过程。
随着:
- AI
- 大数据
- 复杂网络
- 城市计算
的发展,数据挖掘将在未来社会治理与复杂系统研究中发挥越来越重要作用。
参考资料
- 《数据挖掘(主编:吕欣、王梦宁)》
- XL-lab-bigdata/DataMining
- 《复杂网络》
- 《Python 大数据实践》
- 《大数据平台架构》