数据挖掘--认识数据

数据挖掘--引论

数据挖掘--认识数据

数据挖掘--数据预处理

数据挖掘--数据仓库与联机分析处理

数据挖掘--挖掘频繁模式、关联和相关性:基本概念和方法

数据挖掘--分类

数据挖掘--聚类分析:基本概念和方法


数据对象与属性类型

  • 属性:是一个数据字段,表示数据对象的一个特征
  • 标称属性:值是一些符号或事物的名称
  • 二元属性:布尔属性(1或0)
  • 序数属性:用有序字母或者数字来表示不同等级1-大,2-中,3-小
  • 数值属性:区间标度属性(温度)、比率标度
  • 离散属性与连续属性:具有有限或无线可能个数

数据的基本统计描述

中列数:(max+min)/2

盒图

四分位数极差:IQR=Q3-Q1

离群点:大于Q3有1.5倍IQR,小于Q1有1.5倍IQR

最大,最小(不超过1.5倍IQR)(没有的话以最大观察值为准)

中位数

分位数图

分位数-分位数图

区别

因可以说分位数和分位数图是相关的概念,但并不完全相同。分位数是描述数据集中某个位置的值,而分位数图则是以图形方式展示了数据集的整体分布情况。

度量数据的相似性和相异性

数据矩阵与相异性矩阵

数据矩阵:两张相同长宽的表来实现对象-属性

相异性矩阵:存放n个对象两两之间的邻近度(任意两个之间的距离)

标称属性的邻近性度量

d(i,j)=(p-m)/p

p:总属性个数

m:i,j相同的属性个数

二元属性的邻近性度量

列出列联表

算出q,r,s,t

对称二元相异性:

非对称二元相异性(正匹配比度匹配有意义的多,因此负匹配数t忽略不计):

数值属性的相异性:闵可夫斯基距离

欧式距离、曼哈顿距离(差值相加)、上确界距离(max|xi1-xi2|)(差值最大)

闵可夫斯基距离:是对欧几里得距离的推广,可以理解为不同维度考察下的距离

序数属性的邻近度量

混合类型属性的相异性

混合类型相异度计算的思想:按不同类型的属性(如数值型,二元变量,名义变量等),根据各自类型的计算方法计算之后再加权求和。

关于指示符(即 权重):指示符为0有两种情况

余弦相似性

相关推荐
STLearner16 小时前
AAAI 2026 | 时空数据(Spatial-temporal)论文总结[上](时空预测,轨迹挖掘,自动驾驶等)
大数据·人工智能·python·深度学习·机器学习·数据挖掘·自动驾驶
clarance201516 小时前
2025主流BI工具可信能力评估报告:从合规到智能的架构解析
数据库·人工智能·信息可视化·架构·数据挖掘·数据分析
大鹏的NLP博客20 小时前
大模型中为什么 CoT 对分类有效?
人工智能·分类·数据挖掘
STLearner20 小时前
AAAI 2026 | 时空数据(Spatial-temporal)论文总结[下](自动驾驶,天气预报,城市科学,POI推荐等)
人工智能·python·深度学习·机器学习·数据挖掘·自动驾驶·智慧城市
算法与编程之美21 小时前
不同的优化器对分类精度的影响以及损失函数对分类精度的影响.
人工智能·算法·机器学习·分类·数据挖掘
沃彼特21 小时前
不用任何软件,检测闪存(SD卡U盘)的真实容量检测非常简单的测试方式,没有之一,不会用电脑都会用这个。
人工智能·目标检测·数据挖掘
傻啦嘿哟1 天前
隧道代理在数据挖掘中的实战应用:从原理到落地的全流程解析
人工智能·数据挖掘
熊猫比分管理员1 天前
开源代码/直播系统免费源码/支持二开/直播、赛事与数据分析一体化解决方案
数据挖掘·数据分析
啊阿狸不会拉杆1 天前
《数字图像处理》第 12 章 - 图像模式分类
图像处理·人工智能·算法·机器学习·计算机视觉·分类·数据挖掘
做科研的周师兄2 天前
中国土壤有机质数据集
人工智能·算法·机器学习·分类·数据挖掘