【数据处理】数据预处理·数据变换（熵与决策树）

🌈个人主页： 十二月的猫-CSDN博客

🔥 系列专栏： 🏀软件开发必备知识_十二月的猫的博客-CSDN博客

💪🏻 十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光

[1. 前言](#1. 前言)

[2. 数据变换](#2. 数据变换)

[2.1 数据规范化](#2.1 数据规范化)

[编辑 2.2 数据离散化](#编辑 2.2 数据离散化)

[2.2.1 非监督离散化](#2.2.1 非监督离散化)

[2.2.2 监督离散化](#2.2.2 监督离散化)

1. 前言

在进入这一篇文章之前，我希望大家看看另外两篇文章

【数据处理】数据预处理·数据清理-CSDN博客

【数据处理】数据预处理·数据集成-CSDN博客

核心思想：

1、大数据中最重要的部分就是数据处理

2、数据处理中第一步就是数据预处理

3、数据预处理目的是提高数据的质量，使得我们能使用更高质量的数据进行后续处理

4、数据预处理包括：数据清洗、数据集成、数据变换、数据规约
数据清洗：

1、缺失值处理

2、噪声处理
数据集成：

1、数据集成中最大的问题就是数据冗余

2、冗余数据包括：冗余样本、冗余属性

3、数据冗余中最重要的部分是：冗余检测

4、冗余检测包括：有序数据检测、无序数据检测

5、检测方式有两个角度：a. 将数据看成向量空间的点；b. 将数据看成向量

接下来，我们进入数据预处理的下一部分：数据变换

2. 数据变换

定义： 由于数据量之间的量纲、连续性 等不同导致不同数据之间不能比较，因此需要通过数据变换使他们具有可比性。

**数据变换包括：**数据规范化、数据离散化

2.1 数据规范化

**目的：**将不同数据（属性）按一定规则进行缩放，使它们具有可比性

**举个例子：**体重和身高两个数据量之间不能比较，因为量纲不同，因此需要规范化

最小-最大规范化：（对原始数据进行线性变换。把数据A的观察值v从原始的区间 $minA，maxA$ 映射到新区间 $new_minA，new_maxA$ ）【0-1规范化又称为归一化】

0-1规范化：

$minA，maxA$ - $new_minA，new_maxA$ 规范化：

**用处：**能够调节两个属性的量纲，让两者可以比较

**缺点：**噪声影响非常大，对离群值很敏感

因此，提出z-score规范化！！！！

z-score规范化：

小数定标规范化：

2.2 数据离散化

连续数据过于细致，数据之间的关系难以分析，划分为离散化的区间，发现数据之间的关联，便于算法处理。

思考什么是离散化？

离散化本质就是限制类的数量

限制类的数量其核心思想和平滑是相同的

平滑也就是我们进行数据清洗（缺失、噪声处理）的核心思想

2.2.1 非监督离散化

分箱
聚类

2.2.2 监督离散化

熵的计算

**熵的本质思想：**信息不确定性越大，价值越大

例如：

1、"太阳从东边升起来"这个信息没有不确定性，这是一个必然事实。那么这个信息对于我们来说是没有价值的。

2、"特朗普将赢得大选"这个信息不确定性相当大（特朗普不一定赢）。因此，我们听到这个信息会很好奇，为什么特朗普将赢，因此这个信息价值很大。

那么如何利用熵来对数据进行离散化呢？

**离散化：**就是把数据的类别减少（限制类别数量）。

因此，**利用熵来实现离散化的关键在于：**为连续的数据进行有限的分类。

问题的关键就转化为：如何利用熵有效的对数据进行分类

分类方法：

D：待分类数据集
a：数据集的特征属性
V：数据集特征属性a的不同分类集合（V是我们找max过程中需要改变的）

举个例子：

如果想要学习更多深度学习知识，大家可以点个关注并订阅，持续学习、天天进步

你的点赞就是我更新的动力，如果觉得对你有帮助，辛苦友友点个赞，收个藏呀~~~