概率论与数理统计术语理解——方差和协方差

目录

[1. 方差(variance)](#1. 方差(variance))

[1.1 单词variance的词源](#1.1 单词variance的词源)

[1.2 variance概率统计中的含义](#1.2 variance概率统计中的含义)

[1.3 为何取平方而非直接取绝对值进行度量?](#1.3 为何取平方而非直接取绝对值进行度量?)

[1.4 标准偏差(Standard Deviation)](#1.4 标准偏差(Standard Deviation))

[2. 协方差(covariance)](#2. 协方差(covariance))


1. 方差( variance**)**

1.1 单词 variance的词源

variance 始于 14 世纪, 词义为"经历状态或条件改变的事实," 来自古法语 variance ,词义为"改变(change), 变化(alteration), 疑虑(doubt), 迟疑(hesitation)。" 或直接来自拉丁语variantia ,其词干为 variare (变化,见vary ) 。

其另一个词义为"差异、不一致、事实或性质上的不符 (discrepancy, inconsistency, fact or quality of not agreeing)," 因此引申为 "不和,意见相左的状态;导致分歧的差异。"

1.2 variance概率统计中的含义

variance一词由Ronald Aylmer Fisher于1918年在一篇关于群体遗传学的论文中引入,该论文题为《基于孟德尔遗传假设的亲属间相关性》(Transactions of the Royal Society of Edinburgh, 52, 399-433):"......在分析变异性的成因时,宜将标准差的平方作为衡量变异性的指标。我们将这个量称为'方差'......"(It is ... desirable in analysing the causes of variability to deal with the square of the standard deviation as the measure of variability. We shall term this quantity the Variance)(第399页)。

"analysis of variance"这一术语出现在同一篇论文的目录中,却未见于正文。它倒是出现在了Fisher所作的一篇非技术性通俗论述《人类变异的成因》(The Causes of Human Variability)(刊于《优生学评论》(Eugenics Review)第10卷,1918年,第213-220页)的正文中。在这些文献中,"方差分析"指的是基于遗传理论对总体方差进行的一种分解

方差衡量了数据集相对于其均值(平均值)的离散程度或分散状况,表明了各个数值偏离均值以及彼此之间差异的大小其计算方法为各数值与均值之差的平方的平均值,即体现各数值以及彼此之间相左的程度。方差越大,意味着数据分散程度越高;反之,方差越小,则表明数据紧密地聚集在均值周围因此,这个所谓的"方差"应该是"差方均值",而影响这个结果的是平方部分,不是求均值的时候那个数量,因此简称"差方"是合适的。称"方差"大概只是为了顺口。

1.3 为何取平方而非直接取绝对值进行度量?

为什么是取差的平方而不是直接取绝对值呢?大致有以下原因:

(1) 方差定义为偏差的二阶矩( moment**)** ;因此,它取平方形式,因为矩本质上即是随机变量高次幂的期望值。

(2) 相比于绝对值函数,采用平方运算能够得到一个良好的连续且可微函数(而绝对值函数在0处不可微,即,存在尖点)------这使其成为了自然之选,尤其是在估计与回归分析的语境下。

(3) 平方形式也自然地源自正态(常态)分布的参数。

1.4 标准偏差( Standard Deviation**)**

标准差(或 σ )衡量了数据点相对于均值(平均数)的分散程度。较低的标准差意味着数据点紧密聚集在平均数附近,而较高的标准差则表明数据分布在更宽的范围内其计算方法为方差的平方根

2. 协方差( covariance**)**

协方差是一种统计度量,用于衡量两个随机变量共同变化的程度。正值表明这两个变量同向变动,而负值则表明它们反向变动。 在数据分析、金融和机器学习领域,协方差常用来识别数据中线性关系的方向

"covariance"由"co-(共同的)"(协:共同合作的)+"variance"构成。称协方差是因为其计算公式与方差类似。

相关推荐
进击的小头1 小时前
第17篇:卡尔曼滤波器之概率论初步
python·算法·概率论
人机与认知实验室4 天前
频率主义 vs 贝叶斯主义中的态、势、感、知
人工智能·机器学习·概率论
Echo_NGC22375 天前
【贝叶斯公式】从先验到后验的概率推演
人工智能·贝叶斯·概率论·扩散模型
DeepModel7 天前
【概率分布】指数分布(Exponential Distribution)原理、推导与实战
python·算法·概率论
DeepModel7 天前
【概率分布】正态分布(高斯分布)原理、可视化与机器学习实战
python·算法·概率论
DeepModel9 天前
【概率分布】卡方分布的原理、推导与实战应用
python·算法·概率论
DeepModel9 天前
【概率分布】均匀分布的原理、推导与Python实现
python·算法·概率论
MoRanzhi12039 天前
一维概率分布可视化实践:基于 Python 的理论曲线与样本图对照
python·概率论·matplotlib·seaborn·scipy·统计学·概率分布可视化
DeepModel9 天前
【概率分布】泊松分布的原理、推导与实战应用
python·算法·概率论