【数据处理】数据预处理·数据变换(熵与决策树)

🌈个人主页: 十二月的猫-CSDN博客

🔥 系列专栏: 🏀软件开发必备知识_十二月的猫的博客-CSDN博客

💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光

目录

[1. 前言](#1. 前言)

[2. 数据变换](#2. 数据变换)

[2.1 数据规范化](#2.1 数据规范化)

[​编辑 2.2 数据离散化](#编辑 2.2 数据离散化)

[2.2.1 非监督离散化](#2.2.1 非监督离散化)

[2.2.2 监督离散化](#2.2.2 监督离散化)


1. 前言

在进入这一篇文章之前,我希望大家看看另外两篇文章

【数据处理】数据预处理·数据清理-CSDN博客

【数据处理】数据预处理·数据集成-CSDN博客

核心思想:

1、大数据中最重要的部分就是数据处理

2、数据处理中第一步就是数据预处理

3、数据预处理目的是提高数据的质量,使得我们能使用更高质量的数据进行后续处理

4、数据预处理包括:数据清洗、数据集成、数据变换、数据规约
数据清洗:

1、缺失值处理

2、噪声处理
数据集成:

1、数据集成中最大的问题就是数据冗余

2、冗余数据包括:冗余样本、冗余属性

3、数据冗余中最重要的部分是:冗余检测

4、冗余检测包括:有序数据检测、无序数据检测

5、检测方式有两个角度:a. 将数据看成向量空间的点;b. 将数据看成向量


接下来,我们进入数据预处理的下一部分:数据变换

2. 数据变换

定义: 由于数据量之间的量纲、连续性 等不同导致不同数据之间不能比较,因此需要通过数据变换使他们具有可比性。

**数据变换包括 :**数据规范化、数据离散化

2.1 数据规范化

**目的:**将不同数据(属性)按一定规则进行缩放,使它们具有可比性

**举个例子:**体重和身高两个数据量之间不能比较,因为量纲不同,因此需要规范化

最小-最大规范化:(对原始数据进行线性变换。把数据A的观察值v从原始的 区间[minA,maxA]映 射到新区间 [new_minA,new_maxA])【0-1规范化又称为归一化】

0-1规范化:

minA,maxA\] - \[new_minA,new_maxA\]规范化: ![\frac{v^\prime-new_min_A}{new_max_A-new_min_A}=\frac{v-min_A}{max_A-min_A}](https://latex.csdn.net/eq) ![\nu^{\prime}=\frac{\nu-min_{A}}{\max_{A}-\min_{A}}(\mathrm{new_max_{A}-new_min_{A}})+\min_{A}](https://latex.csdn.net/eq) > **用处:**能够调节两个属性的量纲,让两者可以比较 > > **缺点:**噪声影响非常大,对离群值很敏感 因此,提出**z-score规范化**!!!! **z-score规范化:** ![](https://i-blog.csdnimg.cn/direct/ac9d514ad5a54528a7f0308befeb6d6e.png) ![](https://i-blog.csdnimg.cn/direct/1bf9fb9c0cfb4617b25680d869ee5925.png) **小数定标规范化:** ![](https://i-blog.csdnimg.cn/direct/e44679b3125347cca98ac2d9e0217625.png) ### ![](https://i-blog.csdnimg.cn/direct/6e57e2d558ec4e7b940fb78f1418b682.png) 2.2 数据离散化 连续数据过于细致,数据之间的关系难以分析,划分为离散化的区间,发现数据之间的关联,便于算法处理。 > * 思考什么是离散化? > * **离散化本质就是限制类的数量** > * **限制类的数量**其核心思想和平滑是相同的 > * 平滑也就是我们进行数据清洗(缺失、噪声处理)的核心思想 #### 2.2.1 非监督离散化 * 分箱 * 聚类 ![](https://i-blog.csdnimg.cn/direct/28dfcba1ba4e46ebb80d3eb498ab2af8.png) #### 2.2.2 监督离散化 * 熵的计算 ![](https://i-blog.csdnimg.cn/direct/86080a329998424cacd86bc9cd11bcf7.png) > **熵的本质思想:**信息不确定性越大,价值越大 > > **例如:** > > 1、"太阳从东边升起来"这个信息没有不确定性,这是一个必然事实。那么这个信息对于我们来说是没有价值的。 > > 2、"特朗普将赢得大选"这个信息不确定性相当大(特朗普不一定赢)。因此,我们听到这个信息会很好奇,为什么特朗普将赢,因此这个信息价值很大。 *** ** * ** *** 那么如何利用熵来对数据进行离散化呢? **离散化:**就是把数据的类别减少(限制类别数量)。 因此,**利用熵来实现离散化的关键在于:**为连续的数据进行有限的分类。 问题的关键就转化为:**如何利用熵有效的对数据进行分类** **分类方法:** ![](https://i-blog.csdnimg.cn/direct/c5d6c15ec3a8493e820859ae36dc50c3.png) * D:待分类数据集 * a:数据集的特征属性 * V:数据集特征属性a的不同分类集合(**V是我们找max过程中需要改变的**) **举个例子:** ![](https://i-blog.csdnimg.cn/direct/af3f337f5dda4efebe451f703e4cf3f4.png) ![](https://i-blog.csdnimg.cn/direct/1572b7d0ddab40fcbd63c080db648a53.png) 如果想要学习更多深度学习知识,大家可以点个关注并订阅,持续学习、天天进步 你的点赞就是我更新的动力,如果觉得对你有帮助,辛苦友友点个赞,收个藏呀\~\~\~ ![](https://i-blog.csdnimg.cn/direct/83f192aad3794a2db686fd3af0151f61.gif)

相关推荐
2301_7766816516 分钟前
【用「概率思维」重新理解生活】
开发语言·人工智能·自然语言处理
蜡笔小新..20 分钟前
从零开始:用PyTorch构建CIFAR-10图像分类模型达到接近1的准确率
人工智能·pytorch·机器学习·分类·cifar-10
富唯智能39 分钟前
转运机器人可以绕障吗?
人工智能·智能机器人·转运机器人
视觉语言导航1 小时前
湖南大学3D场景问答最新综述!3D-SQA:3D场景问答助力具身智能场景理解
人工智能·深度学习·具身智能
AidLux1 小时前
端侧智能重构智能监控新路径 | 2025 高通边缘智能创新应用大赛第三场公开课来袭!
大数据·人工智能
引量AI2 小时前
TikTok矩阵运营干货:从0到1打造爆款矩阵
人工智能·矩阵·自动化·tiktok矩阵·海外社媒
Hi-Dison2 小时前
神经网络极简入门技术分享
人工智能·深度学习·神经网络
奋斗者1号2 小时前
机器学习之决策树模型:从基础概念到条件类型详解
人工智能·决策树·机器学习
LinkTime_Cloud2 小时前
谷歌引入 AI 反诈系统:利用语言模型分析潜在恶意网站
人工智能·语言模型·自然语言处理
张小九992 小时前
PyTorch的dataloader制作自定义数据集
人工智能·pytorch·python