Python数据分析与可视化笔记 三 了解数据 数据分类 集中趋势 离散程度 相关性测量 数据缺失 噪声 离群点

数据分为定性数据和定量数据。

定性数据 包括两个基本层次,即定序(ordinal) 和**定义(nominal)**层次。定序变量是指该变量只是对某些特性的"多少"进行排序,但各等级之间的差别不确定。例如评价一个事物有"好"、"一般"、"不好"三个等级,但各个等级之间没有定量关系。名义变量则是指该变量只是测量某种特征出现或不出现。例如性别"男"、"女",两者之间没有任何关系,不能排序或刻度化。

定量数据 包含离散变量连续变量两个层次。离散变量是通过计数方式取得的,连续变量是一直叠加上去的。

数据分析者首先要考察每个变量的关键特征。有两个需要特别关注,即集中趋势(central tendency)离散程度(disperation)

1.集中趋势

集中趋势的主要测度是均值中位数众数。对于定量数据,其均值、中位数和众数的度量都是有效的;对于定性数据,这三个指标所能提供的信息很少。

2.离散程度

考虑变量的离散程度主要考虑变量的差别 如何。常见的测度有极差方差标准差,另外还有四分位距、平均差和变异系数等。对于定量数据,极差代表数据所处范围的大小,方差、平均差和标准差代表数据相对均值的偏离情况,但方差、标准差和平均差等都是数值的绝对量,无法规避数值度量单位的影响。变异系数修正了这个弊端,使用标准差除以均值得到一个相对量来反映数据集的变异程度或离散程度。

3.相关性测量

进行真正的数据分析之前,可以通过以下这些简单的统计方法计算变量之间的相关性。

(1)数据可视化处理

绘制成折线图或散点图,做图表相关分析

(2)计算变量间的协方差

协方差可以确定相关关系的正负,没有任何关于强度的信息。若变量测量单位发生变化,该值会发生变化,但实际变量间的相关关系没有发生变化。

(3)计算变量间的相关系数

(4)进行一元回归或多元回归分析

4.数据缺失

数据集中不含缺失变量的称完全变量,含缺失值的变量称不完全变量。

5.噪声

噪声是指被观测变量的随机误差或方差。数学形式表示为观测量(measurement)=真实数据(true data)+噪声(noise)

6.离群点

数据集中的一些数据对象,与数据的一般行为或模型不一致,这样的对象称离群点。离群点属于观测值。

相关推荐
数据智能老司机5 小时前
精通 Python 设计模式——分布式系统模式
python·设计模式·架构
数据智能老司机6 小时前
精通 Python 设计模式——并发与异步模式
python·设计模式·编程语言
数据智能老司机6 小时前
精通 Python 设计模式——测试模式
python·设计模式·架构
数据智能老司机6 小时前
精通 Python 设计模式——性能模式
python·设计模式·架构
c8i6 小时前
drf初步梳理
python·django
每日AI新事件6 小时前
python的异步函数
python
使一颗心免于哀伤7 小时前
《设计模式之禅》笔记摘录 - 21.状态模式
笔记·设计模式
这里有鱼汤8 小时前
miniQMT下载历史行情数据太慢怎么办?一招提速10倍!
前端·python
databook17 小时前
Manim实现脉冲闪烁特效
后端·python·动效
程序设计实验室17 小时前
2025年了,在 Django 之外,Python Web 框架还能怎么选?
python