数据挖掘--引论

1.2什么是数据挖掘

数据挖掘是从大量数据中挖掘有趣模式和知识的过程。

数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。

  1. 数据清理(消除噪声和删除不一致数据)
  2. 数据集成(多种数据源可以组合在一起)
  3. 数据选择(从数据库中提取与分析任务相关的数据)
  4. 数据变化(通过汇总或聚焦操作,把数据变换和统一成适合挖掘的形式)
  5. 数据挖掘(基本步骤,使用智能方法提取数据模式)
  6. 模式评估(根据某种兴趣度量度,识别知识的真正有趣模式)
  7. 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

1.3数据仓库

数据仓库是一个从多个数据源收集的信息存储库

特点

  • 面向主题
  • 集成的数据
  • 不可更新
  • 随时间不断变化

数据立方体

OLAP(On-line Analytical Processing,联机分析处理)是在基于数据仓库多维模型的基础上实现的面向分析的各类操作的集合。

OLAP的多维分析操作包括:钻取(Drill-down)、上卷(Roll-up)、切片(Slice)、切块(Dice)以及旋转(Pivot),下面还是以上面的数据立方体为例来逐一解释下:

钻取(Drill-down):在维的不同层次间的变化,从上层降到下一层,或者说是将汇总数据拆分到更细节的数据。

比如通过对2010年第二季度的总销售数据进行钻取来查看2010年第二季度4、5、6每个月的消费数据,如图;当然也可以钻取浙江省来查看杭州市、宁波市、温州市......这些城市的销售数据。

上卷(Roll-up):钻取的逆操作,即从细粒度数据向高层的聚合。

如将江苏省、上海市和浙江省的销售数据进行汇总来查看江浙沪地区的销售数据,如图。

切片(Slice):选择维中特定的值进行分析,比如只选择电子产品的销售数据,或者2010年第二季度的数据。

切块(Dice):选择维中特定区间的数据或者某批特定值进行分析,比如选择2010年第一季度到2010年第二季度的销售数据,或者是电子产品和日用品的销售数据。

旋转(Pivot):即维的位置的互换,就像是二维表的行列转换,如图中通过旋转实现产品维和地域维的互换。

1.4可以挖掘什么类型的模式

类/概念描述:特征化与区分

1. 数据特征化

对同类的数据进行汇总,输出方式为饼图、条图等

2. 数据区分

将两个同一属性但不同值的对象进行比较

挖掘频繁模式、关联和相关性

模式

  • 频繁项集:频繁出现的东西
  • 频繁子序列:顾客倾向购买电脑然后购买鼠标
  • 频繁子结构:子结构有不同的结构形式

关联

  • 单维关联规则:x->z
  • 多维关联规则:x,y->z

相关性

属性-值

用于预测分析的分类与回归(了解)

决策树、神经网络、相关分析

聚类分析

聚类是根据类内事物的相似性最大、类间事物的相似性最小的原则把数据对象进行聚类或分组

聚类与分类不同,它们的区别如下:

  • 分类需要训练数据集,属于有监督的学习;而聚类不需要训练数据集,属于无监督的学习。
  • 在进行分类以前,已知道数据的分类情况;而进行聚类以前,对目标数据的分类情况一无所知。常用的聚类方法包括统计分析方法、机器学习方法、神经网络方法等

离群点分析

异常

所有模式都是有趣的吗

数据挖掘的知识有三个重要问题需要回答:

  • 什么样的模式是有价值(感兴趣)的?价值度量
  • 挖掘系统能产生所有有价值的模式吗?算法的完全性问题
  • 数据挖掘到的模式是否都是有价值的知识?优化问题
相关推荐
xinyu_Jina39 分钟前
FIRE之旅 财务计算器:金融独立模型中的复利可视化与敏感性分析
人工智能·程序人生·信息可视化·金融·程序员创富
工藤学编程1 小时前
零基础学AI大模型之Milvus核心:分区-分片-段结构全解+最佳实践
人工智能·milvus
caijingshiye2 小时前
九科信息企业自动化智能体:打破知行割裂,让AI真正动手干活
运维·人工智能·自动化
码农很忙2 小时前
OpenAI GPT-5.1正式发布:智商情商双突破,开启AI交互新时代
人工智能
袁洛施2 小时前
Claude Code 深度解析:架构、工作原理与常见误解
人工智能·架构
Funny_AI_LAB3 小时前
李飞飞联合杨立昆发表最新论文:超感知AI模型从视频中“看懂”并“预见”三维世界
人工智能·算法·语言模型·音视频
数据皮皮侠6 小时前
区县政府税务数据分析能力建设DID(2007-2025)
大数据·数据库·人工智能·信息可视化·微信开放平台
极小狐8 小时前
比 Cursor 更丝滑的 AI DevOps 编程智能体 - CodeRider-Kilo 正式发布!
运维·人工智能·devops
半臻(火白)8 小时前
Prompt-R1:重新定义AI交互的「精准沟通」范式
人工智能
菠菠萝宝8 小时前
【AI应用探索】-10- Cursor实战:小程序&APP - 下
人工智能·小程序·kotlin·notepad++·ai编程·cursor