Python数据分析与可视化笔记 三 了解数据 数据分类 集中趋势 离散程度 相关性测量 数据缺失 噪声 离群点

数据分为定性数据和定量数据。

定性数据 包括两个基本层次,即定序(ordinal) 和**定义(nominal)**层次。定序变量是指该变量只是对某些特性的"多少"进行排序,但各等级之间的差别不确定。例如评价一个事物有"好"、"一般"、"不好"三个等级,但各个等级之间没有定量关系。名义变量则是指该变量只是测量某种特征出现或不出现。例如性别"男"、"女",两者之间没有任何关系,不能排序或刻度化。

定量数据 包含离散变量连续变量两个层次。离散变量是通过计数方式取得的,连续变量是一直叠加上去的。

数据分析者首先要考察每个变量的关键特征。有两个需要特别关注,即集中趋势(central tendency)离散程度(disperation)

1.集中趋势

集中趋势的主要测度是均值中位数众数。对于定量数据,其均值、中位数和众数的度量都是有效的;对于定性数据,这三个指标所能提供的信息很少。

2.离散程度

考虑变量的离散程度主要考虑变量的差别 如何。常见的测度有极差方差标准差,另外还有四分位距、平均差和变异系数等。对于定量数据,极差代表数据所处范围的大小,方差、平均差和标准差代表数据相对均值的偏离情况,但方差、标准差和平均差等都是数值的绝对量,无法规避数值度量单位的影响。变异系数修正了这个弊端,使用标准差除以均值得到一个相对量来反映数据集的变异程度或离散程度。

3.相关性测量

进行真正的数据分析之前,可以通过以下这些简单的统计方法计算变量之间的相关性。

(1)数据可视化处理

绘制成折线图或散点图,做图表相关分析

(2)计算变量间的协方差

协方差可以确定相关关系的正负,没有任何关于强度的信息。若变量测量单位发生变化,该值会发生变化,但实际变量间的相关关系没有发生变化。

(3)计算变量间的相关系数

(4)进行一元回归或多元回归分析

4.数据缺失

数据集中不含缺失变量的称完全变量,含缺失值的变量称不完全变量。

5.噪声

噪声是指被观测变量的随机误差或方差。数学形式表示为观测量(measurement)=真实数据(true data)+噪声(noise)

6.离群点

数据集中的一些数据对象,与数据的一般行为或模型不一致,这样的对象称离群点。离群点属于观测值。

相关推荐
SmallBambooCode几秒前
【人工智能】【Python】在Scikit-Learn中使用KNN(K最近邻算法)
人工智能·python·机器学习·scikit-learn·近邻算法
Root06243 分钟前
【笔记】记一次easyExcel中注解ExcelProperty映射字段赋值无效问题
java·开发语言·笔记
受之以蒙3 分钟前
Rust并发编程:解锁高效与安全的编程新姿势
笔记·rust
jaffe—fly4 分钟前
【解决问题】conda 虚拟环境内,`pip list` 展示全局的包
python·conda·pip
带上一无所知的我4 分钟前
解锁Conda:Python环境与包管理的终极指南
开发语言·python·conda
大只因bug5 分钟前
基于Hadoop的热门旅游景点推荐数据分析与可视化系统(基于Django大数据技术的热门旅游景点数据分析与可视化)
大数据·hadoop·数据分析·旅游景点可视化分析系统·热门旅游景点推荐系统·旅游景点分析与可视化系统·hadoop智能推荐系统
changwan9 分钟前
基于Celery+Supervisord的异步任务管理方案
后端·python·性能优化
君秋水9 分钟前
Python异步编程指南:asyncio从入门到精通(Python 3.10+)
后端·python
君秋水22 分钟前
FastAPI教程:20个核心概念从入门到 happy使用
后端·python·程序员
试着生存36 分钟前
java根据List<Object>中的某个属性排序(数据极少,顺序固定)
java·python·list