数据分析笔记02:数值方法
描述统计学的数值方法
基本术语
样本统计量与总体参数
样本统计量(Sample Statistics):
- 使用样本数据计算得到的度量值。
- 用于估计总体特征。
- 是总体参数的点估计。
总体参数(Population Parameters):
- 使用总体数据计算得到的度量值。
- 反映总体的真实特征。
- 通常未知,需要通过样本统计量进行估计。
关键理解:在实际应用中,通常无法获取完整的总体数据,因此主要依赖样本统计量推断总体参数。
位置的度量
1. 平均数(Mean)
平均数是衡量数据中心位置的最常用指标。
算术平均数
样本平均数公式:
Xˉ=∑Xin \bar{X} = \frac{\sum X_i}{n} Xˉ=n∑Xi
- Xˉ\bar{X}Xˉ:样本平均数。
- XiX_iXi:第i个观测值。
- nnn:样本大小。
总体平均数公式:
μ=∑XiN \mu = \frac{\sum X_i}{N} μ=N∑Xi
- μ\muμ:总体平均数。
- NNN:总体大小。
平均数的特性:
- 类似于跳跳板效应的支点,平衡数据分布。
- 受极端值影响显著:极大值使平均数右移,极小值使平均数左移。
实例分析(基于员工年龄数据):
原数据:[32, 41, 43, 49, 55],平均数 = 44。
修改后:[32, 41, 43, 49, 75],平均数 = 48。
结论:极值增加20,平均数增加4。
加权平均数
适用于观测值具有不同重要性时。
公式:
Xˉw=∑Wi×Xi∑Wi \bar{X}_w = \frac{\sum W_i \times X_i}{\sum W_i} Xˉw=∑Wi∑Wi×Xi
- WiW_iWi:第i个观测值的权重。
- XiX_iXi:第i个观测值。
实际应用例子:原材料采购。
| 批次 | 单价(元) | 数量(件) | 金额(元) |
|---|---|---|---|
| 1 | 3.5 | 1300 | 4550 |
| 2 | 3.8 | 600 | 2280 |
| 3 | 3.2 | 800 | 2560 |
| 4 | 3.6 | 1100 | 3960 |
| 5 | 3.4 | 2600 | 8840 |
计算过程:
- 总金额:4550 + 2280 + 2560 + 3960 + 8840 = 22190元。
- 总数量:1300 + 600 + 800 + 1100 + 2600 = 6400件。
- 加权平均单价:22190 ÷ 6400 = 3.47元/件。
几何平均数
专用于计算平均增长率。
公式:
Xg=X1×X2×⋯×Xnn X_g = \sqrt[n]{X_1 \times X_2 \times \cdots \times X_n} Xg=nX1×X2×⋯×Xn
关键应用:投资收益率分析。
实例:基金十年投资分析(基于数据)。
- 初始投资:100美元。
- 十年后价值:148.72美元。
- 总增长因子:1.4872。
几何平均数计算:
平均年收益率 = 1.487210−1=4.05%\sqrt[10]{1.4872} - 1 = 4.05\%101.4872 −1=4.05%。
错误算术平均数:直接对各年收益率求平均 = 6.12%。
结论:算术平均数会夸大实际收益率。
重要提醒:计算连续时期的平均增长率必须使用几何平均数。
2. 中位数(Median)
中位数是对变量中心位置的另一种度量,不受极端值影响。
计算方法:
- 将数据按升序排列。
- 若数据个数为奇数,取中间位置数值;若为偶数,取中间两个数值的平均。
优势:
- 不受极端值影响。
- 适用于偏态分布数据。
- 计算简单直观。
3. 众数(Mode)
定义:出现次数最多的数据值。
分类:
- 单一众数:只有一个数值出现次数最多。
- 双重众数:两个数值并列出现次数最多。
- 多重众数:三个或以上数值并列出现次数最多。
实例:手机游戏击杀统计数据。
- 数据:[10, 10, 10, 13, 6] → 众数:10。
- 数据:[10, 10, 9, 9, 13] → 众数:9和10。
注意:多重众数数据集的参考意义较小,建议结合平均数和中位数分析。
4. 百分位数(Percentiles)
百分位数精确描述数据在最小值和最大值之间的分布情况。
定义:第P百分位数(DP)将数据分为两部分:
- 约P%的观测值 < DP。
- 约(100-P)%的观测值 > DP。
教育应用实例:高考模拟考试,考生得分612分,位于年级第95百分位数。
解读:
- 95%的学生分数低于612分。
- 5%的学生分数高于612分。
- 结论:该考生成绩优秀。
计算方法:
- 数据升序排列。
- 计算位置:位置 = (P/100) × (n+1)。
- 若位置为整数,取该位置数值;若有小数,使用插值法。
实例:12名毕业生起薪数据(水平)。
排序后数据:[5200, 5800, 6000, 6300, 6800, 7300, 7325, 7800, 8000, 9000, 9200, 9300]。
计算第80百分位数:
- 位置 = (80/100) × (12+1) = 10.4。
- 第80百分位数 = 9000 + 0.4 × (9200 - 9000) = 9080元。
5. 四分位数(Quartiles)
四分位数将数据分为四个相等部分,每部分包含25%的观测值。
定义:
- 第一四分位数(Q1):第25百分位数。
- 第二四分位数(Q2):第50百分位数(中位数)。
- 第三四分位数(Q3):第75百分位数。
计算方法:使用百分位数计算公式。
变异程度的度量
变异程度反映数据的离散程度或稳定性,是评估风险的重要指标。
供应商案例背景:两家供应商A和B,平均交货时间均为10天。
- 供应商A:交货时间变化小,集中在9-11天。
- 供应商B:交货时间变化大,范围7-15天。
- 结论:变异程度小的供应商更可靠。
1. 极差(Range)
定义:最大值 - 最小值。
优点:
- 计算简单。
- 直观易懂。
缺点:
- 仅依赖两个极端值。
- 易受异常值影响。
- 无法反映数据整体分布。
实例:毕业生起薪数据极差:9300 - 5200 = 4100元。
含异常值:25000 - 5200 = 19800元。
2. 四分位数间距(IQR)
定义:Q3 - Q1。
优势:
- 排除极端影响:使用中间50%数据。
- 计算简单,结果可靠。
应用:适用于包含异常值的数据集。
3. 方差(Variance)
方差是最重要的变异程度度量,使用所有数据点计算。
方差公式:
样本方差:
s2=∑(Xi−Xˉ)2n−1 s^2 = \frac{\sum (X_i - \bar{X})^2}{n-1} s2=n−1∑(Xi−Xˉ)2
总体方差:
σ2=∑(Xi−μ)2N \sigma^2 = \frac{\sum (X_i - \mu)^2}{N} σ2=N∑(Xi−μ)2
为什么样本方差除以(n-1)?为确保估计的无偏性。
方差计算实例:毕业生起薪数据。
- 样本平均数:Xˉ=7385.42\bar{X} = 7385.42Xˉ=7385.42元。
- ∑(Xi−Xˉ)2=17095000\sum (X_i - \bar{X})^2 = 17095000∑(Xi−Xˉ)2=17095000。
- 方差:s2=17095000/(12−1)=1554090.91s^2 = 17095000 / (12-1) = 1554090.91s2=17095000/(12−1)=1554090.91元²。
重要特性:
- 平均数离差和为零:∑(Xi−Xˉ)=0\sum (X_i - \bar{X}) = 0∑(Xi−Xˉ)=0。
- 方差单位:原数据单位的平方。
4. 标准差(Standard Deviation)
定义:方差的平方根。
公式:
样本标准差:s=s2s = \sqrt{s^2}s=s2 。
总体标准差:σ=σ2\sigma = \sqrt{\sigma^2}σ=σ2 。
优势:
- 单位与原始数据一致。
- 更直观地度量离散程度。
- 广泛用于统计推断。
实例计算:s=1554090.91=1246.96s = \sqrt{1554090.91} = 1246.96s=1554090.91 =1246.96元。
分布形态、相对位置与异常值检测
1. 偏度(Skewness)
偏度提供数据分布形态的数值度量。
偏度数值含义:
| 分布类型 | 偏度值 | 特征描述 |
|---|---|---|
| 左偏分布 | 负值(如-0.85) | 左侧尾巴长,数据右集中 |
| 对称分布 | 0 | 左右对称,正态分布 |
| 右偏分布 | 正值(如0.85) | 右侧尾巴长,数据左集中 |
| 严重右偏 | 大正值(如1.62) | 极度右偏,少数极大值 |
重要性质:
- 对称分布:平均数 = 中位数。
- 右偏分布:平均数 > 中位数,中位数更具代表性。
实例:商店购物金额。
- 平均值:85.4元。
- 中位数:65.2元。
- 结论:严重右偏,中位数更代表典型消费水平。
实用建议:数据存在严重偏态时,中位数是首选位置度量指标。
2. Z分数(Z-Score)
Z分数测量观测值与平均数的相对位置。
公式:
Z=Xi−Xˉs Z = \frac{X_i - \bar{X}}{s} Z=sXi−Xˉ
解读:
- Z = 1.2:观测值比平均数大1.2个标准差。
- Z = -0.5:观测值比平均数小0.5个标准差。
- Z = 0:观测值等于平均数。
应用:
- 比较不同数据集。
- 标准化数据。
3. 切比雪夫定理
适用于任何数据集,提供数据分布的一般性规律。
定理内容:与平均数距离在Z个标准差内的数据比例至少为1−1/Z21 - 1/Z^21−1/Z2。
- Z = 2:至少75%。
- Z = 3:至少89%。
实际应用:网店商品价格分析。
- 平均售价:75元。
- 标准差:6元。
- 至少75%的商品售价在63-87元之间。
4. 经验法则(68-95-99.7法则)
适用于近似正态分布的数据。
内容:
| 范围 | 包含数据比例 |
|---|---|
| μ±1σ\mu \pm 1\sigmaμ±1σ | 68.26% |
| μ±2σ\mu \pm 2\sigmaμ±2σ | 95.44% |
| μ±3σ\mu \pm 3\sigmaμ±3σ | 99.74% |
使用条件:仅适用于近似对称的钟型分布。
切比雪夫定理 vs 经验法则:
- 切比雪夫:适用于任何分布,估计保守。
- 经验法则:适用于正态分布,估计精确。
5. 异常值检测
异常值:异常大或异常小的观测值。
检测标准:基于Z分数,|Z| > 3视为异常。
检测步骤:
- 计算每个观测值的Z分数。
- 识别|Z| > 3的数值。
- 标记为疑似异常值。
- 进一步验证数据准确性。
两个变量间关系的度量
研究背景:音响设备商店广告次数与销售额关系。
1. 协方差(Covariance)
描述两个变量之间的线性关系方向。
公式:
样本协方差:
cov(X,Y)=∑(Xi−Xˉ)(Yi−Yˉ)n−1 \text{cov}(X,Y) = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{n-1} cov(X,Y)=n−1∑(Xi−Xˉ)(Yi−Yˉ)
总体协方差:
σxy=∑(Xi−μx)(Yi−μy)N \sigma_{xy} = \frac{\sum (X_i - \mu_x)(Y_i - \mu_y)}{N} σxy=N∑(Xi−μx)(Yi−μy)
解读:
- 正值:正相关。
- 负值:负相关。
- 零:无线性关系。
局限性:
- 仅判断方向,无法度量强度。
- 数值大小无标准参照。
- 单位依赖性强。
2. 皮尔逊相关系数
度量线性关系方向和强度。
公式:
样本相关系数:
rxy=cov(X,Y)sx×sy r_{xy} = \frac{\text{cov}(X,Y)}{s_x \times s_y} rxy=sx×sycov(X,Y)
总体相关系数:
ρxy=σxyσx×σy \rho_{xy} = \frac{\sigma_{xy}}{\sigma_x \times \sigma_y} ρxy=σx×σyσxy
相关系数取值与解读:
| 相关系数范围 | 关系类型 | 强度描述 |
|---|---|---|
| r = 1 | 完全正相关 | 所有点在正斜率直线上 |
| 0.7 < r < 1 | 强正相关 | 明显的正向线性关系 |
| 0.3 < r ≤ 0.7 | 中等正相关 | 一定程度的正向关系 |
| 0 < r ≤ 0.3 | 弱正相关 | 微弱的正向关系 |
| r = 0 | 无线性关系 | 无明显线性关系 |
| -0.3 ≤ r < 0 | 弱负相关 | 微弱的负向关系 |
| -0.7 ≤ r < -0.3 | 中等负相关 | 一定程度的负向关系 |
| -1 < r < -0.7 | 强负相关 | 明显的负向线性关系 |
| r = -1 | 完全负相关 | 所有点在负斜率直线上 |
简化记忆:|r|越接近1,关系越强;越接近0,关系越弱。
完全相关实例:数据[(6,12), (14,32), (16,52)]。
- r = 1,完全正相关。
广告效果分析结果:rxy=0.94r_{xy} = 0.94rxy=0.94。
结论:广告次数与销售额存在强正相关。
3. 重要提醒:相关不等于因果
相关系数的局限:
- 只测量线性关系。
- 不代表因果关系。
- 可能存在第三变量影响。
实例:学历与收入呈正相关,但收入还受个人能力、工作经验等因素影响。
分析建议:
- 谨慎解读相关结果。
- 寻找潜在第三变量。
- 结合专业知识判断。
- 因果推断需更严格的研究设计。
学习总结
位置度量方法
| 方法 | 适用场景 | 优劣特点 |
|---|---|---|
| 算术平均数 | 对称分布 | 受极值影响大 |
| 加权平均数 | 不同重要性数据 | 考虑权重分配 |
| 几何平均数 | 增长率计算 | 消除复利效应 |
| 中位数 | 偏态分布 | 不受极值影响 |
| 众数 | 定性分析 | 反映最常见值 |
变异度量方法
| 方法 | 计算方式 | 应用特点 |
|---|---|---|
| 极差 | 最大值-最小值 | 简单但不稳定 |
| 四分位数间距 | Q3-Q1 | 排除极端影响 |
| 方差 | 离差平方平均 | 最全面准确 |
| 标准差 | 方差平方根 | 单位直观 |
高级分析技术
- 偏度分析:判断数据分布形态。
- Z分数:标准化相对位置。
- 切比雪夫定理:通用分布规律。
- 经验法则:正态分布专用。
- 异常值检测:数据质量控制。
关系度量方法
- 协方差:关系方向判断。
- 相关系数:关系强度测量。
- 注意事项:相关 ≠ 因果。
理论要点
- 样本统计量与总体参数的区别与联系。
- 无偏估计的重要性(除以n-1)。
- 数据分布形态对统计方法选择的影响。
- 标准化处理在比较分析中的作用。
实用技能
- 根据数据分布特点选择位置度量方法。
- 使用Z分数有效识别异常值。
- 准确解读相关分析,避免因果误解。
- 综合运用多种方法描述数据特征。
常见误区
- 盲目使用算术平均数,忽略数据分布特点。
- 夸大相关系数意义,混淆相关与因果。
- 忽略极值影响,未进行异常值检测。
- 单一指标判断,缺乏综合分析。
实际应用指南
数据分析步骤:
- 数据探索:计算基本统计量。
- 分布检查:绘制直方图,计算偏度。
- 异常检测:使用Z分数识别极值。
- 关系分析:计算相关系数。
- 结果解读:结合业务背景分析。
商业决策应用:
- 供应商选择:比较交货时间变异程度。
- 产品定价:分析消费额分布特点。
- 营销效果:评估广告投入与销售关系。
- 风险评估:使用标准差衡量投资风险。