方差的迭代计算公式


1️、方差基础公式

给定一组数据 x1,x2,...,xnx_1, x_2, \dots, x_nx1,x2,...,xn,其 均值方差 定义如下:

均值:

xˉn=1n∑i=1nxi \bar{x}n = \frac{1}{n} \sum{i=1}^{n} x_i xˉn=n1i=1∑nxi

方差:

无偏样本方差
sn2=1n−1∑i=1n(xi−xˉn)2 s_n^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x}_n)^2 sn2=n−11i=1∑n(xi−xˉn)2

总体方差
σn2=1n∑i=1n(xi−xˉn)2 \sigma_n^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x}_n)^2 σn2=n1i=1∑n(xi−xˉn)2

注意:样本方差比总体方差除以 n−1n-1n−1,以消除偏差。


2️、为什么需要迭代公式?

直接计算方差需要存储所有数据 ,尤其对于大规模数据或流式数据(streaming data),这是不现实的。

迭代公式允许 每来一个新数据 xn+1x_{n+1}xn+1 时更新均值和方差,无需重新扫描整个数据集。


3️、均值迭代公式

已有 nnn 个样本均值 xˉ∗n\bar{x}*nxˉ∗n,加入新样本 x∗n+1x*{n+1}x∗n+1 后,新的均值 xˉn+1\bar{x}_{n+1}xˉn+1:

xˉn+1=xˉn+xn+1−xˉnn+1 \bar{x}_{n+1} = \bar{x}n + \frac{x{n+1} - \bar{x}_n}{n+1} xˉn+1=xˉn+n+1xn+1−xˉn

简单理解:新均值是旧均值加上新数据偏差的 1/(n+1)1/(n+1)1/(n+1)。


4️、方差迭代公式推导(Welford 算法)

  1. 定义当前样本数量 nnn 的 累计平方差
    M2,n=∑i=1n(xi−xˉn)2 M_{2,n} = \sum_{i=1}^{n} (x_i - \bar{x}_n)^2 M2,n=i=1∑n(xi−xˉn)2

  2. 当加入新样本 xn+1x_{n+1}xn+1:

    • 更新均值:
      xˉn+1=xˉn+xn+1−xˉnn+1 \bar{x}_{n+1} = \bar{x}n + \frac{x{n+1} - \bar{x}_n}{n+1} xˉn+1=xˉn+n+1xn+1−xˉn
    • 差值:
      δ=xn+1−xˉn \delta = x_{n+1} - \bar{x}n δ=xn+1−xˉn
      δ2=xn+1−xˉn+1 \delta_2 = x
      {n+1} - \bar{x}_{n+1} δ2=xn+1−xˉn+1
  3. 更新累计平方差:
    M2,n+1=M2,n+δ⋅δ2 M_{2,n+1} = M_{2,n} + \delta \cdot \delta_2 M2,n+1=M2,n+δ⋅δ2

  4. 迭代计算方差:

  • 样本方差:
    sn+12=M2,n+1n s_{n+1}^2 = \frac{M_{2,n+1}}{n} sn+12=nM2,n+1
    或无偏样本方差:
    sn+12=M2,n+1n s_{n+1}^2 = \frac{M_{2,n+1}}{n} sn+12=nM2,n+1

核心思想:每次只用上一轮累计平方差 + 新样本与均值的偏差,保证数值稳定,不容易溢出。


5️、数值稳定性说明

Welford 方法相比直接公式:
sn2=1n∑xi2−xˉn2 s_n^2 = \frac{1}{n} \sum x_i^2 - \bar{x}_n^2 sn2=n1∑xi2−xˉn2

优势:

  • 不需要存储所有 xix_ixi;
  • 避免 平方和减去平方均值 导致的数值精度丢失;
  • 可以实时处理大规模或流式数据。

6️、C++ 实战示例

cpp 复制代码
#include <vector>
#include <iostream>

class OnlineVariance {
private:
    int n = 0;
    double mean = 0.0;
    double M2 = 0.0;  // 累计平方差
public:
    void addSample(double x) {
        n++;
        double delta = x - mean;
        mean += delta / n;
        double delta2 = x - mean;
        M2 += delta * delta2;
    }

    double getMean() const { return mean; }
    double getVariance() const { return n > 1 ? M2 / (n-1) : 0.0; } // 样本方差
    double getPopulationVariance() const { return n > 0 ? M2 / n : 0.0; } // 总体方差
};

int main() {
    std::vector<double> data = {2.0, 4.0, 4.0, 4.0, 5.0, 5.0, 7.0, 9.0};
    OnlineVariance ov;

    for (auto x : data) {
        ov.addSample(x);
        std::cout << "n=" << ov.n << ", mean=" << ov.getMean()
                  << ", variance=" << ov.getVariance() << std::endl;
    }

    return 0;
}

输出示例(部分):

复制代码
n=1, mean=2, variance=0
n=2, mean=3, variance=2
n=3, mean=3.33333, variance=2.33333
...

每增加一个数据点,均值和方差都会被实时更新。


7️、总结公式

  • 均值迭代
    xˉn+1=xˉn+xn+1−xˉnn+1 \bar{x}_{n+1} = \bar{x}n + \frac{x{n+1}-\bar{x}_n}{n+1} xˉn+1=xˉn+n+1xn+1−xˉn
  • 累计平方差迭代
    M2,n+1=M2,n+(xn+1−xˉn)(xn+1−xˉn+1) M_{2,n+1} = M_{2,n} + (x_{n+1}-\bar{x}n)(x{n+1}-\bar{x}_{n+1}) M2,n+1=M2,n+(xn+1−xˉn)(xn+1−xˉn+1)
  • 方差
    sn+12=M2,n+1n(总体方差) s_{n+1}^2 = \frac{M_{2,n+1}}{n} \quad \text{(总体方差)} sn+12=nM2,n+1(总体方差)
    sn+12=M2,n+1n−1(样本方差) s_{n+1}^2 = \frac{M_{2,n+1}}{n-1} \quad \text{(样本方差)} sn+12=n−1M2,n+1(样本方差)

这种迭代方式适合大数据、流式数据和实时计算,数值稳定且无需存储所有历史数据。


相关推荐
沃达德软件4 小时前
智慧警务图像融合大数据
大数据·图像处理·人工智能·目标检测·计算机视觉·目标跟踪
雪碧聊技术7 小时前
深度学习、机器学习、人工智能三者的关系
人工智能·深度学习·机器学习
笨蛋少年派7 小时前
跨境电商大数据分析系统案例:③建模、分析与暂时收尾
hive·数据挖掘·数据分析
陈奕昆7 小时前
n8n实战营Day3:电商订单全流程自动化·需求分析与流程拆解
大数据·开发语言·人工智能·自动化·需求分析·n8n
Cisyam^7 小时前
openGauss + LangChain Agent实战:从自然语言到SQL的智能数据分析助手
sql·数据分析·langchain
AI大模型学徒7 小时前
大模型应用开发(四)_调用大模型分析图片
人工智能·深度学习·ai·大模型·deepseek
java1234_小锋7 小时前
基于Python深度学习的车辆车牌识别系统(PyTorch2卷积神经网络CNN+OpenCV4实现)视频教程 - 切割车牌矩阵获取车牌字符
python·深度学习·cnn·车牌识别
semantist@语校7 小时前
第五十一篇|构建日本语言学校数据模型:埼玉国际学院的城市结构与行为变量分析
java·大数据·数据库·人工智能·百度·ai·github
陈文锦丫7 小时前
Boundary Difference Over Union Loss For Medical Image Segmentation
深度学习
赵渝强老师7 小时前
【赵渝强老师】阿里云大数据集成开发平台DataWorks
大数据·阿里云·云计算