数据分析笔记02:数值方法

数据分析笔记02:数值方法

描述统计学的数值方法

基本术语

样本统计量与总体参数

样本统计量(Sample Statistics):

  • 使用样本数据计算得到的度量值。
  • 用于估计总体特征。
  • 是总体参数的点估计。

总体参数(Population Parameters):

  • 使用总体数据计算得到的度量值。
  • 反映总体的真实特征。
  • 通常未知,需要通过样本统计量进行估计。

关键理解:在实际应用中,通常无法获取完整的总体数据,因此主要依赖样本统计量推断总体参数。

位置的度量

1. 平均数(Mean)

平均数是衡量数据中心位置的最常用指标。

算术平均数

样本平均数公式:
Xˉ=∑Xin \bar{X} = \frac{\sum X_i}{n} Xˉ=n∑Xi

  • Xˉ\bar{X}Xˉ:样本平均数。
  • XiX_iXi:第i个观测值。
  • nnn:样本大小。

总体平均数公式:
μ=∑XiN \mu = \frac{\sum X_i}{N} μ=N∑Xi

  • μ\muμ:总体平均数。
  • NNN:总体大小。

平均数的特性:

  • 类似于跳跳板效应的支点,平衡数据分布。
  • 受极端值影响显著:极大值使平均数右移,极小值使平均数左移。

实例分析(基于员工年龄数据):

原数据:[32, 41, 43, 49, 55],平均数 = 44。

修改后:[32, 41, 43, 49, 75],平均数 = 48。

结论:极值增加20,平均数增加4。

加权平均数

适用于观测值具有不同重要性时。

公式:
Xˉw=∑Wi×Xi∑Wi \bar{X}_w = \frac{\sum W_i \times X_i}{\sum W_i} Xˉw=∑Wi∑Wi×Xi

  • WiW_iWi:第i个观测值的权重。
  • XiX_iXi:第i个观测值。

实际应用例子:原材料采购。

批次 单价(元) 数量(件) 金额(元)
1 3.5 1300 4550
2 3.8 600 2280
3 3.2 800 2560
4 3.6 1100 3960
5 3.4 2600 8840

计算过程:

  • 总金额:4550 + 2280 + 2560 + 3960 + 8840 = 22190元。
  • 总数量:1300 + 600 + 800 + 1100 + 2600 = 6400件。
  • 加权平均单价:22190 ÷ 6400 = 3.47元/件。
几何平均数

专用于计算平均增长率。

公式:
Xg=X1×X2×⋯×Xnn X_g = \sqrt[n]{X_1 \times X_2 \times \cdots \times X_n} Xg=nX1×X2×⋯×Xn

关键应用:投资收益率分析。

实例:基金十年投资分析(基于数据)。

  • 初始投资:100美元。
  • 十年后价值:148.72美元。
  • 总增长因子:1.4872。

几何平均数计算:

平均年收益率 = 1.487210−1=4.05%\sqrt[10]{1.4872} - 1 = 4.05\%101.4872 −1=4.05%。

错误算术平均数:直接对各年收益率求平均 = 6.12%。

结论:算术平均数会夸大实际收益率。

重要提醒:计算连续时期的平均增长率必须使用几何平均数。

2. 中位数(Median)

中位数是对变量中心位置的另一种度量,不受极端值影响。

计算方法:

  1. 将数据按升序排列。
  2. 若数据个数为奇数,取中间位置数值;若为偶数,取中间两个数值的平均。

优势:

  • 不受极端值影响。
  • 适用于偏态分布数据。
  • 计算简单直观。
3. 众数(Mode)

定义:出现次数最多的数据值。

分类:

  • 单一众数:只有一个数值出现次数最多。
  • 双重众数:两个数值并列出现次数最多。
  • 多重众数:三个或以上数值并列出现次数最多。

实例:手机游戏击杀统计数据。

  • 数据:[10, 10, 10, 13, 6] → 众数:10。
  • 数据:[10, 10, 9, 9, 13] → 众数:9和10。

注意:多重众数数据集的参考意义较小,建议结合平均数和中位数分析。

4. 百分位数(Percentiles)

百分位数精确描述数据在最小值和最大值之间的分布情况。

定义:第P百分位数(DP)将数据分为两部分:

  • 约P%的观测值 < DP。
  • 约(100-P)%的观测值 > DP。

教育应用实例:高考模拟考试,考生得分612分,位于年级第95百分位数。

解读:

  • 95%的学生分数低于612分。
  • 5%的学生分数高于612分。
  • 结论:该考生成绩优秀。

计算方法:

  1. 数据升序排列。
  2. 计算位置:位置 = (P/100) × (n+1)。
  3. 若位置为整数,取该位置数值;若有小数,使用插值法。

实例:12名毕业生起薪数据(水平)。

排序后数据:[5200, 5800, 6000, 6300, 6800, 7300, 7325, 7800, 8000, 9000, 9200, 9300]。

计算第80百分位数:

  • 位置 = (80/100) × (12+1) = 10.4。
  • 第80百分位数 = 9000 + 0.4 × (9200 - 9000) = 9080元。
5. 四分位数(Quartiles)

四分位数将数据分为四个相等部分,每部分包含25%的观测值。

定义:

  • 第一四分位数(Q1):第25百分位数。
  • 第二四分位数(Q2):第50百分位数(中位数)。
  • 第三四分位数(Q3):第75百分位数。

计算方法:使用百分位数计算公式。

变异程度的度量

变异程度反映数据的离散程度或稳定性,是评估风险的重要指标。

供应商案例背景:两家供应商A和B,平均交货时间均为10天。

  • 供应商A:交货时间变化小,集中在9-11天。
  • 供应商B:交货时间变化大,范围7-15天。
  • 结论:变异程度小的供应商更可靠。
1. 极差(Range)

定义:最大值 - 最小值。

优点:

  • 计算简单。
  • 直观易懂。

缺点:

  • 仅依赖两个极端值。
  • 易受异常值影响。
  • 无法反映数据整体分布。

实例:毕业生起薪数据极差:9300 - 5200 = 4100元。

含异常值:25000 - 5200 = 19800元。

2. 四分位数间距(IQR)

定义:Q3 - Q1。

优势:

  • 排除极端影响:使用中间50%数据。
  • 计算简单,结果可靠。

应用:适用于包含异常值的数据集。

3. 方差(Variance)

方差是最重要的变异程度度量,使用所有数据点计算。

方差公式:

样本方差:
s2=∑(Xi−Xˉ)2n−1 s^2 = \frac{\sum (X_i - \bar{X})^2}{n-1} s2=n−1∑(Xi−Xˉ)2

总体方差:
σ2=∑(Xi−μ)2N \sigma^2 = \frac{\sum (X_i - \mu)^2}{N} σ2=N∑(Xi−μ)2

为什么样本方差除以(n-1)?为确保估计的无偏性。

方差计算实例:毕业生起薪数据。

  • 样本平均数:Xˉ=7385.42\bar{X} = 7385.42Xˉ=7385.42元。
  • ∑(Xi−Xˉ)2=17095000\sum (X_i - \bar{X})^2 = 17095000∑(Xi−Xˉ)2=17095000。
  • 方差:s2=17095000/(12−1)=1554090.91s^2 = 17095000 / (12-1) = 1554090.91s2=17095000/(12−1)=1554090.91元²。

重要特性:

  • 平均数离差和为零:∑(Xi−Xˉ)=0\sum (X_i - \bar{X}) = 0∑(Xi−Xˉ)=0。
  • 方差单位:原数据单位的平方。
4. 标准差(Standard Deviation)

定义:方差的平方根。

公式:

样本标准差:s=s2s = \sqrt{s^2}s=s2 。

总体标准差:σ=σ2\sigma = \sqrt{\sigma^2}σ=σ2 。

优势:

  • 单位与原始数据一致。
  • 更直观地度量离散程度。
  • 广泛用于统计推断。

实例计算:s=1554090.91=1246.96s = \sqrt{1554090.91} = 1246.96s=1554090.91 =1246.96元。

分布形态、相对位置与异常值检测

1. 偏度(Skewness)

偏度提供数据分布形态的数值度量。

偏度数值含义:

分布类型 偏度值 特征描述
左偏分布 负值(如-0.85) 左侧尾巴长,数据右集中
对称分布 0 左右对称,正态分布
右偏分布 正值(如0.85) 右侧尾巴长,数据左集中
严重右偏 大正值(如1.62) 极度右偏,少数极大值

重要性质:

  • 对称分布:平均数 = 中位数。
  • 右偏分布:平均数 > 中位数,中位数更具代表性。

实例:商店购物金额。

  • 平均值:85.4元。
  • 中位数:65.2元。
  • 结论:严重右偏,中位数更代表典型消费水平。

实用建议:数据存在严重偏态时,中位数是首选位置度量指标。

2. Z分数(Z-Score)

Z分数测量观测值与平均数的相对位置。

公式:
Z=Xi−Xˉs Z = \frac{X_i - \bar{X}}{s} Z=sXi−Xˉ

解读:

  • Z = 1.2:观测值比平均数大1.2个标准差。
  • Z = -0.5:观测值比平均数小0.5个标准差。
  • Z = 0:观测值等于平均数。

应用:

  • 比较不同数据集。
  • 标准化数据。
3. 切比雪夫定理

适用于任何数据集,提供数据分布的一般性规律。

定理内容:与平均数距离在Z个标准差内的数据比例至少为1−1/Z21 - 1/Z^21−1/Z2。

  • Z = 2:至少75%。
  • Z = 3:至少89%。

实际应用:网店商品价格分析。

  • 平均售价:75元。
  • 标准差:6元。
  • 至少75%的商品售价在63-87元之间。
4. 经验法则(68-95-99.7法则)

适用于近似正态分布的数据。

内容:

范围 包含数据比例
μ±1σ\mu \pm 1\sigmaμ±1σ 68.26%
μ±2σ\mu \pm 2\sigmaμ±2σ 95.44%
μ±3σ\mu \pm 3\sigmaμ±3σ 99.74%

使用条件:仅适用于近似对称的钟型分布。

切比雪夫定理 vs 经验法则:

  • 切比雪夫:适用于任何分布,估计保守。
  • 经验法则:适用于正态分布,估计精确。
5. 异常值检测

异常值:异常大或异常小的观测值。

检测标准:基于Z分数,|Z| > 3视为异常。

检测步骤:

  1. 计算每个观测值的Z分数。
  2. 识别|Z| > 3的数值。
  3. 标记为疑似异常值。
  4. 进一步验证数据准确性。

两个变量间关系的度量

研究背景:音响设备商店广告次数与销售额关系。

1. 协方差(Covariance)

描述两个变量之间的线性关系方向。

公式:

样本协方差:
cov(X,Y)=∑(Xi−Xˉ)(Yi−Yˉ)n−1 \text{cov}(X,Y) = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{n-1} cov(X,Y)=n−1∑(Xi−Xˉ)(Yi−Yˉ)

总体协方差:
σxy=∑(Xi−μx)(Yi−μy)N \sigma_{xy} = \frac{\sum (X_i - \mu_x)(Y_i - \mu_y)}{N} σxy=N∑(Xi−μx)(Yi−μy)

解读:

  • 正值:正相关。
  • 负值:负相关。
  • 零:无线性关系。

局限性:

  • 仅判断方向,无法度量强度。
  • 数值大小无标准参照。
  • 单位依赖性强。
2. 皮尔逊相关系数

度量线性关系方向和强度。

公式:

样本相关系数:
rxy=cov(X,Y)sx×sy r_{xy} = \frac{\text{cov}(X,Y)}{s_x \times s_y} rxy=sx×sycov(X,Y)

总体相关系数:
ρxy=σxyσx×σy \rho_{xy} = \frac{\sigma_{xy}}{\sigma_x \times \sigma_y} ρxy=σx×σyσxy

相关系数取值与解读:

相关系数范围 关系类型 强度描述
r = 1 完全正相关 所有点在正斜率直线上
0.7 < r < 1 强正相关 明显的正向线性关系
0.3 < r ≤ 0.7 中等正相关 一定程度的正向关系
0 < r ≤ 0.3 弱正相关 微弱的正向关系
r = 0 无线性关系 无明显线性关系
-0.3 ≤ r < 0 弱负相关 微弱的负向关系
-0.7 ≤ r < -0.3 中等负相关 一定程度的负向关系
-1 < r < -0.7 强负相关 明显的负向线性关系
r = -1 完全负相关 所有点在负斜率直线上

简化记忆:|r|越接近1,关系越强;越接近0,关系越弱。

完全相关实例:数据[(6,12), (14,32), (16,52)]。

  • r = 1,完全正相关。

广告效果分析结果:rxy=0.94r_{xy} = 0.94rxy=0.94。

结论:广告次数与销售额存在强正相关。

3. 重要提醒:相关不等于因果

相关系数的局限:

  • 只测量线性关系。
  • 不代表因果关系。
  • 可能存在第三变量影响。

实例:学历与收入呈正相关,但收入还受个人能力、工作经验等因素影响。

分析建议:

  1. 谨慎解读相关结果。
  2. 寻找潜在第三变量。
  3. 结合专业知识判断。
  4. 因果推断需更严格的研究设计。

学习总结

位置度量方法

方法 适用场景 优劣特点
算术平均数 对称分布 受极值影响大
加权平均数 不同重要性数据 考虑权重分配
几何平均数 增长率计算 消除复利效应
中位数 偏态分布 不受极值影响
众数 定性分析 反映最常见值

变异度量方法

方法 计算方式 应用特点
极差 最大值-最小值 简单但不稳定
四分位数间距 Q3-Q1 排除极端影响
方差 离差平方平均 最全面准确
标准差 方差平方根 单位直观

高级分析技术

  • 偏度分析:判断数据分布形态。
  • Z分数:标准化相对位置。
  • 切比雪夫定理:通用分布规律。
  • 经验法则:正态分布专用。
  • 异常值检测:数据质量控制。

关系度量方法

  • 协方差:关系方向判断。
  • 相关系数:关系强度测量。
  • 注意事项:相关 ≠ 因果。

理论要点

  1. 样本统计量与总体参数的区别与联系。
  2. 无偏估计的重要性(除以n-1)。
  3. 数据分布形态对统计方法选择的影响。
  4. 标准化处理在比较分析中的作用。

实用技能

  1. 根据数据分布特点选择位置度量方法。
  2. 使用Z分数有效识别异常值。
  3. 准确解读相关分析,避免因果误解。
  4. 综合运用多种方法描述数据特征。

常见误区

  1. 盲目使用算术平均数,忽略数据分布特点。
  2. 夸大相关系数意义,混淆相关与因果。
  3. 忽略极值影响,未进行异常值检测。
  4. 单一指标判断,缺乏综合分析。

实际应用指南

数据分析步骤:

  1. 数据探索:计算基本统计量。
  2. 分布检查:绘制直方图,计算偏度。
  3. 异常检测:使用Z分数识别极值。
  4. 关系分析:计算相关系数。
  5. 结果解读:结合业务背景分析。

商业决策应用:

  • 供应商选择:比较交货时间变异程度。
  • 产品定价:分析消费额分布特点。
  • 营销效果:评估广告投入与销售关系。
  • 风险评估:使用标准差衡量投资风险。
相关推荐
dreams_dream2 小时前
django模型数据查询
数据库·django·sqlite
IT19952 小时前
Wireshark笔记-DNS流程与数据包解析
笔记·测试工具·wireshark
♛小小小让让2 小时前
python logging模块:专业日志记录
笔记·python
郏国上2 小时前
由于图片视频替换和删除导致阿里云上存在大量系统不再使用的文件如何处理
数据库·mongodb·阿里云
追风少年ii2 小时前
脚本复习--高精度空转(Xenium、CosMx)的细胞邻域分析(R版本)
python·数据分析·空间·单细胞
DolphinScheduler社区2 小时前
Apache DolphinScheduler 新增 gRPC 任务插件 | 开源之夏成果总结
大数据·开源·apache·海豚调度
YangYang9YangYan2 小时前
高职单招与统招比较及职业发展指南
大数据·人工智能·数据分析
vivo互联网技术2 小时前
Flink 的 RocksDB 状态后端在 vivo 的实践
大数据