为什么计算样本标准差时,除以 N-1 而不是 N

标准差 是度量数据集离散度的一个重要指标,但是,本篇讨论的不是标准差 的作用和意义,

而是标准差计算中的一个细节问题。

实际情况下,一般会接触到两种标准差:总体标准差样本标准差,其中样本标准差是最常用的。

1. 总体标准差

总体标准差 的计算公式: σ = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2} σ=N1∑i=1N(xi−μ)2

其中, N N N是总的数据个数, x i x_i xi表示每个数据,
μ \mu μ是所有数据的平均值,即: μ = 1 N ∑ i = 1 N x i \mu = \frac{1}{N} \sum_{i=1}^N x_i μ=N1∑i=1Nxi

从公式来看,总体标准差很好理解,目的就是度量数据集中的数据偏离平均值的情况。

2. 样本标准差

再来看样本标准差 公式: s = 1 N − 1 ∑ i = 1 N ( x i − x ˉ ) 2 s = \sqrt{\frac{1}{N-1} \sum_{i=1}^N (x_i - \bar{x})^2} s=N−11∑i=1N(xi−xˉ)2

其中, N N N是样本集的数据个数, x i x_i xi表示每个样本数据,
x ˉ \bar{x} xˉ是样本数据的平均值,即: x ˉ = 1 N ∑ i = 1 N x i \bar{x} = \frac{1}{N} \sum_{i=1}^N x_i xˉ=N1∑i=1Nxi

从公式可以看出,样本标准差 计算时,用的 1 N − 1 \frac{1}{N-1} N−11,而不是 1 N \frac{1}{N } N1。

3. 为什么除以 (N-1)

为了区分总体标准差中 的数据个数,下面用 N a l l N_{all} Nall表示总体标准差 中的数据个数,

N s a m p l e s N_{samples} Nsamples表示样本标准差中的数据个数。

实际的数据分析中,常用的分析指标是样本标准差总体标准差 用的很少。

因为,总体数据量往往很庞大,而且新的数据不断产生,导致所谓的总体数据 也不断变化。

比如,对于民意调查结果,新闻内容,天气数据,股市交易等等,都是抽样做分析。

既然是抽样分析,那么,计算样本标准差时,是得不到整体数据的平均值 μ \mu μ的。

所以在样本标准差的计算公式中,我们用的是样本的平均值 x ˉ \bar{x} xˉ,而不是整体的平均值 μ \mu μ。

直观上来看,样本的平均值 x ˉ \bar{x} xˉ会要比整体的平均值 μ \mu μ更接近样本数据集中的数据,

所以,理论上 ∑ i = 1 N s a m p l e s ( x i − x ˉ ) 2 \sum_{i=1}^{N_{samples}} (x_i - \bar{x})^2 ∑i=1Nsamples(xi−xˉ)2要比 ∑ i = 1 N s a m p l e s ( x i − μ ) 2 \sum_{i=1}^{N_{samples}} (x_i - \mu)^2 ∑i=1Nsamples(xi−μ)2的值小一些。

因此, 1 N s a m p l e s ∑ i = 1 N s a m p l e s ( x i − x ˉ ) 2 \frac{1}{N_{samples}}\sum_{i=1}^{N_{samples}} (x_i - \bar{x})^2 Nsamples1∑i=1Nsamples(xi−xˉ)2也比 1 N s a m p l e s ∑ i = 1 N s a m p l e s ( x i − μ ) 2 \frac{1}{N_{samples}}\sum_{i=1}^{N_{samples}} (x_i - \mu)^2 Nsamples1∑i=1Nsamples(xi−μ)2的值要小。

为了调整这个偏差,让样本标准差 能够更接近总体的标准差
样本标准差 公式中除以 N s a m p l e s − 1 N_{samples}-1 Nsamples−1而不是 N s a m p l e s N_{samples} Nsamples,

相当于调高了样本标准差的值,使之更接近**总体的标准差 **。

4. 补充

通过( N s a m p l e s − 1 N_{samples}-1 Nsamples−1)调节样本标准差 的过程也被称作贝塞尔校正Bessel's correction),

它的数学推导过程可以参考:贝塞尔校正

相关推荐
MRDONG16 小时前
从机器学习到大语言模型:一文讲清 AI、Transformer、Embedding 和向量数据库
人工智能·机器学习·语言模型
城事漫游Molly7 小时前
AI与质性研究的融合(三):AI赋能质性数据分析——从编码到理论构建的新范式
大数据·人工智能·机器学习·prompt·ai for science·智能体·定性研究
大模型最新论文速读7 小时前
SkillOpt:把 skill 文档当成模型权重来训练
论文阅读·人工智能·深度学习·机器学习·自然语言处理
Aloudata7 小时前
AI 黑盒生成 vs 原子语义组合:企业指标生产路径深度对比
大数据·人工智能·数据分析·指标平台·语义层
Omics Pro8 小时前
基因泰克:检测级虚拟细胞基准!大语言模型+智能体
大数据·数据库·人工智能·机器学习·语言模型·自然语言处理·r语言
Quincy_Freak8 小时前
工具分享|基于 SQLiteGo 的国产系统离线数据处理方案
大数据·数据库·数据分析·arm·国产系统·银河麒麟·aarch64
z小猫不吃鱼8 小时前
15 InstructGPT 论文精读:SFT + RLHF 如何让模型听懂指令?
人工智能·深度学习·算法·机器学习·语言模型·自然语言处理·gpt-3
救救孩子把8 小时前
78-机器学习与大模型开发数学教程-7-6 自注意力机制的计算复杂度分析
人工智能·机器学习
人工智能培训9 小时前
数字孪生赋能建筑行业 解锁工程全周期智慧管理
大数据·人工智能·机器学习·prompt·agent
阳明山水9 小时前
销量预测模型评估进阶:从 MAPE 到库存周转率与缺货损失金额
人工智能·机器学习·微信·微信公众平台·微信开放平台