【数据分析】统计量

  1. 均值、众数描述数据的集中趋势度量,四分位差、极差描述数据的离散程度。

  2. 标准差、四分位差、异众比率度量离散程度,协方差是度量相关性。

期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为:

从直观上来看,协方差表示的是两个变量总体误差的期望。

如果XY 是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E [XY ]=E [X ]E [Y]。

但是,反过来并不成立。即如果XY的协方差为0,二者并不一定是统计独立的。

  1. 卡方检验可以分析++分类变量之间的相关性++ 。http://t.csdn.cn/SZSy6

  2. t检验:t检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。 ++只能分析数值型变量。++

  1. 皮尔逊相关系数是一种衡量变量之间线性关系强弱的统计量。它的取值范围在-1到1之间,可以反映出两个变量之间的相关程度。如果相关系数接近1,表明两个变量之间存在完全正向的线性关系;如果接近-1,则说明存在完全负向的线性关系;如果接近0,则表示两个变量之间没有线性关系。

皮尔逊相关系数的计算方法如下:

r = Cov(X, Y) / (σX * σY)

其中,Cov(X, Y)表示变量X和Y的协方差,σX和σY分别表示变量X和Y的标准差。通过计算协方差和标准差,我们可以得到两个变量之间的相关系数。

++只能分析数值型变量。++

例子:百度安全验证

  1. 列联相关:列联相关又称列联相关系数(contingencycorrelation)又称均方相依系数或接触系数,是指当两列数据中至少有一列是++多分类资料++时,描述变量之间的相互关系的品质相关系数。

可以分析++分类变量之间的相关性++。

  1. SQL中的关键字:float浮点型、int 整数型、char 文本型、decimal 定点型

  2. HAVING 子句中的筛选字段必须是可以出现在分组结果中的字段

  3. 多维数据库------雪花模式

雪花模式是集中代表事实表的连接到多个层面 ,是类似星型模式

星型模型:星型模式是多维的数据关系,它由事实表(Fact Table)和维表(Dimension Table)组成。每个维表中都会有一个维作为主键,所有这些维的主键结合成事实表的主键。事实表的非主键属性称为事实,它们一般都是数值或其他可以进行计算的数据。

交叉模型:

相关推荐
2601_954971132 小时前
2026运营岗想转数据分析怎样快速实现转型?
信息可视化·数据挖掘·数据分析
源码之家3 小时前
计算机毕业设计:Python农产品销售数据可视化分析系统 Django框架 数据分析 可视化 大数据 大模型 机器学习(建议收藏)✅
python·信息可视化·数据分析·django·flask·课程设计
源码之家4 小时前
计算机毕业设计:Python城市天气数据挖掘与预测系统 Flask框架 随机森林 K-Means 可视化 数据分析 大数据 机器学习 深度学习(建议收藏)✅
人工智能·爬虫·python·深度学习·机器学习·数据挖掘·课程设计
源码之家6 小时前
计算机毕业设计:Python渔业资源数据可视化分析大屏 Flask框架 数据分析 可视化 数据大屏 大数据 机器学习 深度学习(建议收藏)✅
人工智能·python·信息可视化·数据挖掘·数据分析·flask·课程设计
源码之家8 小时前
计算机毕业设计:Python降水量分析与预警平台 Flask框架 数据分析 可视化 大数据 AI 大模型 爬虫 数据大屏(建议收藏)✅
人工智能·python·信息可视化·数据分析·django·flask·课程设计
源码之家8 小时前
计算机毕业设计:Python农业与气候数据可视化分析系统 Django框架 数据分析 可视化 爬虫 机器学习 大数据 深度学习(建议收藏)✅
大数据·python·机器学习·信息可视化·数据分析·django·课程设计
Mr数据杨17 小时前
加州房价中位数预测在房地产估值中的应用
机器学习·数据分析·kaggle
只说证事18 小时前
会计岗位向管理会计升级,最该补哪些数据分析技能
数据库·数据挖掘·数据分析
STLearner18 小时前
WSDM 2026 | 时间序列(Time Series)论文总结【预测,表示学习,因果】
大数据·论文阅读·人工智能·深度学习·学习·机器学习·数据挖掘
MeAT ITEM19 小时前
爬虫基础之爬取某基金网站+数据分析
爬虫·数据挖掘·数据分析