什么是数据挖掘?------ 超清晰通俗讲解 + 核心任务 + 技术流程 + 使用场景(面试/考研/入门必备)
零基础可懂 · 逻辑严密 · 内容深入 · 适配笔试与工程实践
一、一句话通俗解释
数据挖掘(Data Mining) = 从大量数据中自动发现隐藏的、有用的模式或知识。
- 类比:像"淘金"------在海量沙子(原始数据)中,用工具(算法)筛出黄金(有价值的信息)。
- 不是简单查询:不是问"上月销售额多少?",而是问"哪些用户最可能流失?为什么?"
✅ 核心目标 :将数据转化为知识,支持决策。
二、标准定义
数据挖掘(Data Mining) 是数据库知识发现(Knowledge Discovery in Databases, KDD) 过程中的关键步骤,指应用统计学、机器学习、人工智能 等方法,从大规模数据集中自动提取出先前未知、潜在有用且可理解的模式。
📌 来源:Fayyad et al. (1996),KDD 领域奠基性论文
三、数据挖掘 vs 相关概念(必背对比)
| 概念 | 定义 | 与数据挖掘关系 |
|---|---|---|
| 大数据(Big Data) | 海量、高速、多类型的数据集合 | 数据来源:数据挖掘的"原材料" |
| 机器学习(Machine Learning) | 让计算机从数据中自动学习模型的方法 | 核心技术:数据挖掘的主要工具 |
| 数据分析(Data Analysis) | 用统计方法描述和总结数据 | 前置步骤:侧重解释已知,数据挖掘侧重发现未知 |
| 商业智能(BI) | 通过报表/仪表盘监控业务指标 | 下游应用:数据挖掘结果常用于增强 BI |
💡 一句话厘清:
- 大数据提供"矿藏"
- 数据挖掘是"采矿过程"
- 机器学习是"挖掘机"
- BI/决策是"炼成的金条"
四、数据挖掘的六大核心任务(CRISP-DM 标准)
国际通用标准 CRISP-DM(Cross-Industry Standard Process for Data Mining) 将数据挖掘分为六大任务:
1. 分类(Classification)
- 目标 :预测离散类别标签
- 输入:带标签的历史数据
- 输出:新样本的类别
- 算法:决策树、SVM、逻辑回归、神经网络
- 例子 : "根据用户行为,判断是否会流失(是/否)"
2. 回归(Regression)
- 目标 :预测连续数值
- 算法:线性回归、XGBoost、随机森林
- 例子 : "预测下季度销售额(万元)"
3. 聚类(Clustering)
- 目标 :将相似对象分组(无标签!)
- 算法:K-Means、DBSCAN、层次聚类
- 例子 : "将客户分为高价值、中价值、低价值群体"
4. 关联规则挖掘(Association Rule Mining)
- 目标 :发现项之间的强关联
- 经典算法:Apriori、FP-Growth
- 指标:支持度(Support)、置信度(Confidence)、提升度(Lift)
- 例子 : "买尿布的顾客有 70% 会同时买啤酒" → 超市货架布局优化
5. 异常检测(Anomaly Detection)
- 目标 :识别罕见或异常事件
- 算法:孤立森林(Isolation Forest)、One-Class SVM
- 例子 : "信用卡交易中检测欺诈行为"
6. 序列模式挖掘(Sequential Pattern Mining)
- 目标 :发现时间或顺序上的规律
- 例子 : "用户先看手机 → 再看耳机 → 最后买充电宝"
五、数据挖掘完整流程(KDD 过程)
原始数据
数据清洗
数据集成
数据选择
数据变换
数据挖掘
模式评估
知识表示
决策支持