数据分析笔记04:抽样方法与抽样分布

数据分析笔记04:抽样方法与抽样分布

总体分类

在进行抽样之前,需要理解总体的分类方式。

有限总体

定义:总体范围明确,总体单位数量有限。

典型实例:

  • 区域研究:北京市海淀区所有7岁男孩的身高。
  • 人口普查:全国14.44亿人口数据。
  • 产品批次:某一批次生产的灯泡使用寿命。
  • 公司人员:全班学生的身高数据。

无限总体

定义:总体范围不明确,总体单位数目无限。

典型实例:

  • 工厂产品:某工厂生产的所有灯泡(过去、现在、未来)。
  • 银行服务:某网点所有办理业务的客户。
  • 网店经营:未来10日内进店消费的所有顾客。

简单随机抽样

基本概念

简单随机样本:样本中的每一个个体都以相等的概率从总体中被抽出。

有限总体抽样

从容量为N的有限总体中抽取容量为n的样本,可分为两种方式。

有放回与无放回抽样

经典例子:5个小球(4红1白)。

有放回抽样:

  • 第一次抽取红球概率:4/5。
  • 将球放回后,第二次抽取红球概率:仍为4/5。
  • 特点:每次抽取概率不变。

无放回抽样:

  • 第一次抽取红球概率:4/5。
  • 第二次抽取红球概率:3/4。
  • 特点:每次抽取概率会发生变化。

无限总体抽样

满足条件:

  1. 同一总体:样本中每个个体都来自同一总体。
  2. 独立性:每个个体的抽取都是相互独立的。

实例:餐厅满意度调查。

  • 总体:未来10日内进店消费的所有顾客。
  • 样本:前100名顾客。
  • 特点:顾客之间相互无关联,满足独立性。

Excel实现方法

方法一:RANDBETWEEN函数

操作步骤:

  1. 使用=RANDBETWEEN(1,2500)生成随机编号。
  2. 拉取所需样本数量。
  3. 复制→选择性粘贴→数值(固定随机数)。
  4. 使用VLOOKUP函数匹配对应数据。

VLOOKUP公式:
= VLOOKUP(查找值, 数据范围, 列号, 0) =\text{VLOOKUP(查找值, 数据范围, 列号, 0)} =VLOOKUP(查找值, 数据范围, 列号, 0)

方法二:数据分析工具

启用步骤:

  1. 文件→选项→加载项。
  2. 勾选"分析工具库"→转到→确定。
  3. 数据选项卡→数据分析→抽样。

抽样设定:

  • 输入范围:选择数据范围。
  • 抽样方法:随机。
  • 样本数:输入所需数量。
  • 输出区域:选择结果位置。

分层抽样

分层抽样原理

核心思想:将总体分成不同层组,每个个体属于并且仅属于其中某一层组。

分层原则

核心要求:相同性质的个体放在同一层级。

年龄层次划分实例

层级 年龄范围 特征
少年组 10-20岁 年龄相近,消费习惯相似
青年组 21-35岁 购买能力强,新潮偏好
中年组 36-60岁 稳定收入,理性消费
老年组 60岁以上 节约倾向,质量导向

部门层次划分实例

  • 市场部:对市场趋势敏感。
  • 行政部:注重流程和效率。
  • 财务部:关注成本和收益。
  • 技术部:重视创新和效能。

抽样方式

等比例抽样

公式:层级i的抽样数 = (层级i的人数 / 总人数) × 总抽样数。

等量抽样

方法:每个层级抽取相同数量的样本。

整群抽样

整群抽样原理

核心思想:将总体分成若干群组,每个群组都具有对总体的代表性。

与分层抽样的区别

比较项目 分层抽样 整群抽样
群组内部 相同性质个体 包含所有总体特征
抽样方式 每层都抽取 随机选择整个群
代表性 层内独特性 群内全面性

实例说明

情景:100个人,10-60岁各年龄段都有。

整群划分:

  • 第1群:包含10-60岁所有年龄段的人。
  • 第2群:包含10-60岁所有年龄段的人。
  • 第3群:包含10-60岁所有年龄段的人。
  • 第4群:包含10-60岁所有年龄段的人。

抽样方法:随机选择其中一个群作为样本。

系统抽样

系统抽样原理

核心步骤:

  1. 随机排列编码所有个体。
  2. 将总体分成k个等长区间。
  3. 从第一区间随机选择起始点。
  4. 按固定间隔选取后续样本。

计算公式

间隔计算:
k = N n k = \frac{N}{n} k=nN

实例说明

情景:从100人中抽取5人。

操作步骤:

  1. 间隔计算:k = 100/5 = 20。
  2. 区间划分:[1-20], [21-40], [41-60], [61-80], [81-100]。
  3. 第一区间随机选择:假设选中3。
  4. 按间隔选择:3, 23, 43, 63, 83。

优势:操作简单,样本分布均匀。

点估计

点估计定义

点估计:用样本统计量来估计总体参数的方法。

常见对应关系

总体参数 样本统计量 符号表示
总体平均数 样本平均数 μ ← \bar{X}
总体标准差 样本标准差 σ ← s
总体比例 样本比例 p ← \hat{p}
总体方差 样本方差 σ² ← s²

点估计特点

主要优势:

  • 计算简单,结果明确。
  • 提供具体数值估计。
  • 易于理解和解释。

主要局限:

  • 无法提供估计精度信息。
  • 不同样本可能得到不同结果。
  • 无法量化估计的不确定性。

抽样分布

抽样分布概念

定义:所有可能的样本统计量值的概率分布。

建立过程

步骤说明:

  1. 从总体中抽取第1个样本 → 计算\bar{X}_1。
  2. 从总体中抽取第2个样本 → 计算\bar{X}_2。
  3. 重复过程......
  4. 从总体中抽取第k个样本 → 计算\bar{X}_k。
  5. 所有\bar{X}_1, \bar{X}_2, ..., \bar{X}_k构成抽样分布。

EAI公司实例

背景信息:

  • 总体:2500名管理人员。
  • 样本大小:每次抽取30人。
  • 抽样次数:500次。
  • 总体平均薪资:51800美元。
  • 总体标准差:4000美元。

抽样分布特征:

  • 分布形态:近似正态分布。
  • 中心位置:51800美元附近。
  • 绝大多数样本平均数集中在中心附近。

抽样分布的数学特征

数学期望

基本公式:
E ( X ˉ ) = μ E(\bar{X}) = \mu E(Xˉ)=μ

重要结论:样本平均数的数学期望等于总体平均数。

标准误差

标准误差是所有点估计的标准差,用于衡量估计的稳定性。

有限总体

σ X ˉ = σ n × N − n N − 1 \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} \times \sqrt{\frac{N-n}{N-1}} σXˉ=n σ×N−1N−n

略简条件:当n/N ≤ 0.05时,可使用简化公式。

无限总体

σ X ˉ = σ n \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} σXˉ=n σ

实例计算

EAI公司标准误差计算:

  • n/N = 30/2500 = 1.2%。
  • 由于1.2% < 5%,可用简化公式。
  • \sigma_{\bar{X}} = 4000 / \sqrt{30} = 730.3美元。

抽样分布的形态

总体服从正态分布

结论:当总体服从正态分布时,无论样本大小多少,\bar{X}的抽样分布都服从正态分布。

中心极限定理

适用条件:总体不服从正态分布。

核心结论:当样本大小足够大时,无论总体服从什么分布,\bar{X}的抽样分布都近似正态分布。

样本大小指引

总体分布状态 建议样本大小
一般情况 n ≥ 30
严重偏态 n ≥ 50
正态分布 任意大小

中心极限定理图示

不同总体分布在不同样本大小下的变化:

样本大小 均匀分布 双峰分布 指数分布
n = 2 不对称 不对称 严重右偏
n = 5 轻微不对称 开始对称 右偏减少
n = 30 近似正态 近似正态 近似正态

重要结论:当n=30时,不管总体分布如何,抽样分布都近似正态分布。

抽样分布的应用

概率计算实例

问题设定:EAI人事部认为样本平均数在51800±500美元范围内才是合理估计。

问题:随机抽取30名管理人员,样本平均数落在可接受范围的概率是多少?

解题步骤

步骤1:标准化转换

可接受范围:[51300, 52300]。

标准化计算:
Z 1 = 51300 − 51800 730.3 = − 0.68 Z_1 = \frac{51300 - 51800}{730.3} = -0.68 Z1=730.351300−51800=−0.68
Z 2 = 52300 − 51800 730.3 = 0.68 Z_2 = \frac{52300 - 51800}{730.3} = 0.68 Z2=730.352300−51800=0.68

步骤2:概率计算

Excel函数计算:
P ( Z ≤ 0.68 ) = NORM.S.DIST(0.68, TRUE) = 0.7523 P(Z \leq 0.68) = \text{NORM.S.DIST(0.68, TRUE)} = 0.7523 P(Z≤0.68)=NORM.S.DIST(0.68, TRUE)=0.7523
P ( Z ≤ − 0.68 ) = NORM.S.DIST(-0.68, TRUE) = 0.2468 P(Z \leq -0.68) = \text{NORM.S.DIST(-0.68, TRUE)} = 0.2468 P(Z≤−0.68)=NORM.S.DIST(-0.68, TRUE)=0.2468

区间概率:
P ( − 0.68 ≤ Z ≤ 0.68 ) = 0.7523 − 0.2468 = 0.5064 P(-0.68 \leq Z \leq 0.68) = 0.7523 - 0.2468 = 0.5064 P(−0.68≤Z≤0.68)=0.7523−0.2468=0.5064

结果解释

结论:30名EAI管理人员组成的简单随机样本,能以50.64%的可靠性保证样本平均数落在51800±500美元范围内。

样本大小与抽样分布的关系

样本大小的影响

核心原理:样本大小越大,标准误差越小,估计越精确。

对比分析

EAI实例比较:

样本大小 标准误差 分布特征
n = 30 730.3美元 较宽的分布
n = 100 400美元 更集中的分布

标准误差公式验证:
σ X ˉ = σ n \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} σXˉ=n σ

n增大 → \sqrt{n}增大 → \sigma_{\bar{X}}减小。

实际意义:

  • 样本大小增加 → 估计更准确。
  • 但成本也相应增加。
  • 需要在准确性和成本之间取得平衡。

点估计的性质

如何判断一个点估计的好坏?需要检查三个重要性质。

1. 无偏性(Unbiasedness)

定义:样本统计量的数学期望等于所估计的总体参数。

数学表达:
E ( 样本统计量 ) = 总体参数 E(\text{样本统计量}) = \text{总体参数} E(样本统计量)=总体参数

例:E(\bar{X}) = μ。

无偏与有偏估计

无偏估计:

  • 抽样分布的中心 = 总体参数。
  • 估计无系统性偏差。
  • 长期平均精确。

有偏估计:

  • 抽样分布的中心 ≠ 总体参数。
  • 存在系统性偏差。
  • 结果倾向高估或低估。

2. 有效性(Efficiency)

定义:在所有无偏估计中,标准误差最小的估计最有效。

比较标准:

设有两个无偏估计量T_1和T_2,如果Var(T_1) < Var(T_2),则T_1比T_2更有效。

实际意义:

  • 有效性高 → 估计更稳定。
  • 相同样本大小下,结果更可靠。
  • 有利于提高统计推断的效率。

3. 一致性(Consistency)

定义:随着样本大小增加,点估计值越来越接近总体参数。

数学表达:
lim ⁡ n → ∞ P ( ∣ 样本统计量 − 总体参数 ∣ < ϵ ) = 1 \lim_{n \to \infty} P(|\text{样本统计量} - \text{总体参数}| < \epsilon) = 1 n→∞limP(∣样本统计量−总体参数∣<ϵ)=1

实际意义:

  • 样本越大,估计越可靠。
  • 大样本下的理论保证。
  • 指导实际抽样设计。

综合评价标准

理想点估计:同时满足三个性质。

  • 无偏性:确保长期准确性。
  • 有效性:提供最佳精度。
  • 一致性:保证大样本性能。

常见权衡:

  • 无偏性 vs 有效性:有时需要取舍。
  • 理论性能 vs 实用性:考虑计算复杂度。
  • 准确性 vs 成本:考虑样本大小限制。

Excel操作实务指南

基本统计量计算

总体平均数:
= AVERAGE(数据范围) =\text{AVERAGE(数据范围)} =AVERAGE(数据范围)

标准误差:
= 总体标准差 / SQRT(样本大小) =\text{总体标准差 / SQRT(样本大小)} =总体标准差 / SQRT(样本大小)

正态概率计算

标准化计算:
= ( X - 平均数 ) / 标准误差 =(\text{X - 平均数}) / \text{标准误差} =(X - 平均数)/标准误差

累积概率:
= NORM.S.DIST(Z值, TRUE) =\text{NORM.S.DIST(Z值, TRUE)} =NORM.S.DIST(Z值, TRUE)

区间概率:
= NORM.S.DIST(Z2, TRUE) - NORM.S.DIST(Z1, TRUE) =\text{NORM.S.DIST(Z2, TRUE) - NORM.S.DIST(Z1, TRUE)} =NORM.S.DIST(Z2, TRUE) - NORM.S.DIST(Z1, TRUE)

相关推荐
上线就吃代码2 小时前
【等保测评】数据库数据库配置have_ssl参数为yes
服务器·数据库·ssl
q***9942 小时前
Spring Boot 实战:轻松实现文件上传与下载功能
java·数据库·spring boot
老华带你飞2 小时前
记录生活系统|记录美好|健康管理|基于java+Android+微信小程序的记录生活系统设计与实现(源码+数据库+文档)
android·java·数据库·vue.js·生活·毕设·记录生活系统
青春:一叶知秋2 小时前
【Redis存储】Redis介绍
数据库·redis·缓存
_Minato_2 小时前
数据库知识整理——SQL数据更新
数据库·sql
欢聚赢销CRM3 小时前
从“各自为战“到“数据协同“:销采一体化CRM正在重构供应链竞争力
大数据·人工智能·重构·数据分析
d111111111d3 小时前
STM32外设学习-串口数据包笔记-(数据包的了解)
笔记·stm32·单片机·嵌入式硬件·学习
韩立学长3 小时前
基于Springboot的汽车推荐系统设计与实现7f7h74np(程序、源码、数据库、调试部署方案及开发环境)系统界面展示及获取方式置于文档末尾,可供参考。
数据库·spring boot·汽车
一 乐3 小时前
海产品销售系统|海鲜商城购物|基于SprinBoot+vue的海鲜商城系统(源码+数据库+文档)
java·前端·javascript·数据库·vue.js·后端