《数据挖掘》第一章 绪论 读书笔记

《数据挖掘》第一章 绪论 读书笔记

来源 :基于《数据挖掘》(主编:吕欣、王梦宁)教材 + 官方配套 GitHub 仓库 XL-lab-bigdata/DataMining
仓库亮点 :提供 学习笔记/ 文件夹(含多位同学贡献的结构化笔记)、各章节 code/ + data/ + exercises/,数据集已转为 .parquet 格式。


1. 本章学习目标

通过本章学习,你应该能够:

  • 阐述大数据时代背景及其战略意义
  • 区分数据、信息、知识的层次关系
  • 掌握大数据的 4V 特征 及扩展特征
  • 理解数据挖掘的定义、与 KDD 的关系及标准流程
  • 熟悉本书覆盖的 9 大核心技术领域
  • 认识大数据挖掘的主要挑战、典型应用及隐私伦理问题

2. 大数据时代背景

大数据已成为国家重要的战略资源。数据规模从 KB → MB → GB → TB → PB → EB → ZB → YB 呈爆炸式增长。

核心转变:数据从"副产品"变为"核心生产要素"。


3. 大数据的基本概念

3.1 数据、信息、知识的递进关系

数据 Data
信息 Information
知识 Knowledge
智慧 Wisdom

层次 定义 特点 示例
数据 原始事实、符号、信号 无上下文、无意义 25, , 北京
信息 经过处理并赋予上下文的数据 有意义、可理解 "25岁男性,来自北京"
知识 从信息中提炼的规律、模式、规则 可指导行动 "25-35岁北京男性更倾向购买运动鞋"

3.2 大数据的特征(4V + 扩展)

特征 英文 核心含义 对数据挖掘的影响
规模性 Volume 数据体量巨大(PB/EB 级) 需要分布式计算、可扩展算法
多样性 Variety 结构化 + 半结构化 + 非结构化 多源异构数据融合困难
高速性 Velocity 产生与处理速度极快 流式计算、实时分析需求
价值性 Value 价值密度低,但总体价值高 需要强有力的模式发现能力
真实性 Veracity 数据质量参差不齐 数据清洗与质量评估至关重要
可变性 Variability 数据含义随上下文变化 概念漂移(Concept Drift)问题
复杂性 Complexity 关联网络复杂 图挖掘、复杂网络分析需求

4. 数据挖掘的定义与定位

数据挖掘(Data Mining) 是从海量数据中自动或半自动发现隐藏的、有用的模式和知识的过程。

4.1 数据挖掘与 KDD 的关系

  • KDD(Knowledge Discovery in Databases):更广义的过程,包含数据准备、挖掘、评估等完整流程
  • 数据挖掘:KDD 的核心阶段(模式发现)

关系图示

复制代码
数据清洗 → 数据集成 → 数据选择 → 数据变换 → 
数据挖掘(模式发现) → 模式评估 → 知识表示

4.2 数据挖掘 vs 机器学习 vs 人工智能

维度 数据挖掘 机器学习 人工智能
核心目标 从数据中发现知识 构建预测/分类模型 模拟人类智能
驱动方式 数据驱动 + 业务驱动 算法驱动 认知驱动
典型输出 规则、模式、洞察 模型、预测结果 决策、智能体

5. 数据挖掘的基本流程

推荐同时参考 KDD 过程CRISP-DM 模型。

5.1 KDD 典型阶段

  1. 数据准备(选择、清洗、集成、变换)
  2. 数据挖掘(建模)
  3. 模式评估
  4. 知识表示与应用

5.2 CRISP-DM 循环(工业界常用)

业务理解 → 数据理解 → 数据准备 → 建模 → 评估 → 部署 →(返回业务理解)


6. 本书数据挖掘技术体系(9 大核心领域)

本书系统覆盖以下 9 大领域,对应仓库 chapter2 ~ chapter10

序号 领域 主要任务 典型算法/方法 仓库对应
1 统计描述 数据概括、分布特征、集中趋势与离散程度 均值、中位数、标准差、偏度、峰度 chapter2
2 相关分析 变量间线性/非线性关系强度 Pearson、Spearman、距离相关 chapter3
3 回归分析 数值型目标预测 线性回归、岭回归、Lasso chapter4
4 数据降维 高维数据可视化与简化 PCA、t-SNE、UMAP chapter5
5 关联规则挖掘 频繁项集与规则发现 Apriori、FP-Growth chapter6
6 分类 预测离散类别标签 KNN、决策树、SVM、朴素贝叶斯 chapter7
7 聚类 无监督数据分组 K-Means、层次聚类、DBSCAN chapter8
8 异常检测 识别离群点 孤立森林、LOF、One-Class SVM chapter9
9 集成学习 提升模型泛化能力 Bagging、Boosting、Stacking chapter10

7. 大数据挖掘的挑战

  • 高维灾难(Curse of Dimensionality)
  • 概念漂移与数据分布变化
  • 实时性与可扩展性要求
  • 异构数据融合
  • 可解释性(XAI)需求
  • 隐私保护与算法公平性

8. 典型应用场景

  • 金融风控:信贷违约预测、反欺诈
  • 智能医疗:疾病预测、个性化治疗
  • 智能制造:设备故障预警、质量优化
  • 电商与推荐:用户画像、个性化推荐
  • 智慧城市:交通流量预测、犯罪热点分析

9. 隐私与伦理问题(重点关注)

主要风险

  • 隐私泄露(知情同意权缺失)
  • 算法歧视(大数据杀熟、性别/种族偏见)
  • 自主权侵犯

推荐遵循的原则(教材总结):

  1. 目的明确性
  2. 数据最小化
  3. 透明可解释
  4. 安全保障
  5. 用户赋权
  6. 责任可追溯

10. 实践代码示例(桥接到 Chapter 2)

虽然本章偏理论,但仓库 chapter2/code/ 已提供描述性统计实战代码。以下是典型描述性统计分析示例(推荐在仓库代码基础上扩展):

python 复制代码
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

# 读取数据(仓库推荐使用 .parquet 格式)
# df = pd.read_parquet('data/某数据集.parquet')

# 示例数据
np.random.seed(42)
data = pd.DataFrame({
    '年龄': np.random.normal(35, 10, 1000),
    '收入': np.random.lognormal(10, 0.5, 1000),
    '评分': np.random.randint(1, 6, 1000)
})

print("=== 基础描述性统计 ===")
print(data.describe())

print("\n=== 自定义统计指标 ===")
desc_stats = pd.DataFrame({
    '均值': data.mean(),
    '中位数': data.median(),
    '标准差': data.std(),
    '偏度': data.skew(),
    '峰度': data.kurtosis(),
    '变异系数': data.std() / data.mean()
})
print(desc_stats)

# 可视化
fig, axes = plt.subplots(1, 3, figsize=(15, 4))
for i, col in enumerate(data.columns):
    sns.histplot(data[col], kde=True, ax=axes[i])
    axes[i].set_title(f'{col} 分布')
plt.tight_layout()
plt.show()

仓库使用提示

  • 所有代码均为独立脚本(independent script)
  • 数据集已从 .csv 转为 .parquet
  • 建议按 PEP 8 规范重命名后复用

11. 本章知识总结清单(推荐整理成卡片)

  • 大数据的 4V + 3V 扩展特征
  • 数据 → 信息 → 知识 的递进关系
  • KDD 过程的主要阶段
  • 本书 9 大核心领域及对应章节
  • 数据挖掘 vs 机器学习 vs KDD 的区别
  • 大数据挖掘的主要挑战
  • 隐私保护基本原则

12. 思考与练习建议

  1. 结合仓库 学习笔记/1 绪论_A.md 进行对比学习
  2. 尝试在 chapter2/code/ 基础上添加更多统计图表(箱线图、Q-Q 图)
  3. 思考:当前你所在行业最需要哪一类数据挖掘技术?为什么?
  4. 讨论:如何在实际项目中平衡数据挖掘效果与用户隐私?

参考资源


笔记撰写日期:2026年5月
建议与仓库代码结合实践,效果更佳

相关推荐
kishu_iOS&AI4 小时前
NLP —— Transformer底层源码剖析(编码器部分)
人工智能·自然语言处理·transformer
汐ya~4 小时前
GELab-Zero:面向 Android 的开源移动端 GUI Agent,让 AI 像人一样用手机
android·人工智能·开源
嵌入式-老费4 小时前
esp32开发与应用(用ai开发esp32)
人工智能
草莓熊Lotso4 小时前
【Linux网络】从 0 到工业级:TCP 服务器多线程 / 线程池全实现 + 远程命令执行实战
linux·运维·服务器·网络·人工智能·网络协议·tcp/ip
快递鸟社区4 小时前
快递鸟海运查询接口全面解析:从入门到精通,助力跨境物流可视化
java·前端·人工智能
踩着两条虫4 小时前
可视化设计器组件系统:从交互核心到 AI 智能代理的落地实践
开发语言·前端·人工智能·低代码·设计模式·架构
TG_yunshuguoji4 小时前
云代理商:云端部署的Hermes Agent 如何接入Slack?
人工智能·云计算·ai 智能体·hermes agent
ChampaignWolf4 小时前
ABAP的代理时刻:SAP-ABAP-1、ABAP MCP服务器和VS Code云扩展将于2026年第二季度上线
运维·服务器·人工智能
Bode_20024 小时前
用户为中心交互系统工程在智能制造系统中应用
人工智能·交互·制造