数理统计的基本概念（一）

文章目录

总体、样本与统计量
参考文献

总体、样本与统计量

总体及其分布

在数理统计中，称所研究的对象的全体为总体，总体中的元素称为个体。若总体中的个体数目为有限，则称之为有限总体 ；否则就称之为无限总体。

理解总体与个体：一批灯管10万支，在研究这批灯管的平均使用寿命时，该批灯管的全部使用寿命就组成一个总体，而其中每个灯管的使用寿命是个体。

数理统计所关心的并非每个个体的所有属性，而是它的某一项或若干项数量指标 X X X 和该数量指标 X X X 在总体中的分布情况。一方面，说到总体必对应某数量指标 X X X 可能取值的集合；另一方面，研究任意数量指标 X X X，其可能取值的全体即构成一个总体。因此，把二者等同起来，所谓总体的分布就是指数量指标 X X X 的分布。

数量指标 X X X 是一个随机变量，于是总体的分布也就是随机变量 X X X 的概率分布。

样本及其分布

从总体中取得一部分个体，这一部分个体称为样本。样本中的每个个体称为样品。样品中的个体数目称为样本容量。

取得样本的过程称为抽样，抽样中采用的方法称为抽样法 。在数理统计中，一般采用随机抽样法，即从总体中随意地抽取若干个个体。

设由样本 X 1 , . . . , X n X_1,...,X_n X1,...,Xn，若 X 1 , . . . , X n X_1,...,X_n X1,...,Xn 是独立同分布的且 X 1 X_1 X1 的分布与总体 X X X 的分布相同，则称它为简单随机样本。

说样本 ( X 1 , . . . , X n ) T (X_1,...,X_n)^T (X1,...,Xn)T 是 n n n 维随机向量，这是针对进行一次抽样前而言，实施了一次抽样后，得到的是一个实向量 ( x 1 , . . . x n ) T (x_1,...x_n)^T (x1,...xn)T，它是样本 ( X 1 , . . . , X n ) T (X_1,...,X_n)^T (X1,...,Xn)T 的一个观察值，称为样本值。

统计量

统计量概念

样本是推断总体特性的依据，但在获得样本之后，并不能由样本直接进行统计推断，需要先对样本进行加工和提炼，把样本中所含的总体的相关信息集中起来，即，针对不同的问题构造出样本的适当函数。这种样本的函数 就称为统计量。

设 ( X 1 , . . . , X n ) T (X_1,...,X_n)^T (X1,...,Xn)T 为总体 X X X 的一个样本，若 g ( x 1 , . . . , x n ) g(x_1,...,x_n) g(x1,...,xn) 为样本空间 X \mathcal{X} X 到 R k \mathbf{R}^k Rk 的可测映射，且 g g g 中不含任何未知参数，则称 t = g ( X 1 , . . . , X n ) t=g(X_1,...,X_n) t=g(X1,...,Xn) 为统计量。

粗略来说，统计量就是用作统计的量，因而它不能含未知参数。

样本矩

设 ( X 1 , . . . , X n ) (X_1,...,X_n) (X1,...,Xn) 为总体 X X X 的一个样本，称统计量 X ˉ = 1 n ∑ i = 1 n X i \bar{X}=\frac{1}{n}\sum_{i=1}^n X_i Xˉ=n1i=1∑nXi 为样本均值 ；称统计量 S 2 = 1 n ∑ i = 1 n ( X i − X ˉ ) 2 = 1 n ∑ i = 1 n X i 2 − X ˉ 2 S^2=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2=\frac{1}{n}\sum_{i=1}^n X_i^2 - \bar{X}^2 S2=n1i=1∑n(Xi−Xˉ)2=n1i=1∑nXi2−Xˉ2 及 S ∗ 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S^{*2}=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2 S∗2=n−11i=1∑n(Xi−Xˉ)2 分别为样本方差 及修正样本方差 ，称样本方差的算数根 S = S 2 S=\sqrt{S^2} S=S2 为样本标准差 ；称统计量 A k = 1 n ∑ i = 1 n X i k A_k=\frac{1}{n}\sum_{i=1}^n X_i^k Ak=n1i=1∑nXik 及 B k = 1 n ∑ i = 1 n ( X i − X ˉ ) k B_k=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^k Bk=n1i=1∑n(Xi−Xˉ)k 分别为样本 k k k 阶原点矩 及样本 k k k 阶中心矩。

由大数定律可以证明，当 n n n 很大时，可用一次抽样后所得的样本均值 x ˉ \bar{x} xˉ 和样本方差 s 2 s^2 s2 分别作为总体 X X X 的均值 μ \mu μ 和方差 σ 2 \sigma^2 σ2 的近似值。

顺序统计量及其分布

设 ( X 1 , . . . , X n ) T (X_1,...,X_n)^T (X1,...,Xn)T 为总体 X X X 的一个样本，其观察值为 ( x 1 , . . . , x n ) T (x_1,...,x_n)^T (x1,...,xn)T，将 x 1 , . . . , x n x_1,...,x_n x1,...,xn 由小到大进行排列，依次记为 x ( 1 ) , . . . , x ( n ) x_{(1)},...,x_{(n)} x(1),...,x(n)，即 x ( 1 ) ≤ . . . ≤ x ( n ) x_{(1)}\le...\le x_{(n)} x(1)≤...≤x(n)。按下述方法定义统计量 X ( k ) X_{(k)} X(k)：当样本 ( X 1 , . . . , X n ) T (X_1,...,X_n)^T (X1,...,Xn)T 取值为 ( x 1 , . . . , x n ) T (x_1,...,x_n)^T (x1,...,xn)T 时，规定 X ( k ) X_{(k)} X(k) 取值为 x ( k ) x_{(k)} x(k)，由此得到的 ( X ( 1 ) , . . . , X ( n ) ) T (X_{(1)},...,X_{(n)})^T (X(1),...,X(n))T 称为样本 ( X 1 , . . . , X n ) T (X_1,...,X_n)^T (X1,...,Xn)T 的顺序统计量 或次序统计量， X ( k ) X_{(k)} X(k) 称为样本 ( X 1 , . . . , X n ) T (X_1,...,X_n)^T (X1,...,Xn)T 的第 k k k 个顺序统计量， X ( 1 ) X_{(1)} X(1) 称为样本 ( X 1 , . . . , X n ) T (X_1,...,X_n)^T (X1,...,Xn)T 的最小顺序统计量， X ( n ) X_{(n)} X(n) 称为样本 ( X 1 , . . . , X n ) T (X_1,...,X_n)^T (X1,...,Xn)T 的最大顺序统计量。

样本中位数与样本极差

设 ( X 1 , . . . , X n ) T (X_1,...,X_n)^T (X1,...,Xn)T 为总体 X X X 的一个样本，其顺序统计量为 ( X ( 1 ) , . . . , X ( n ) ) T (X_{(1)},...,X_{(n)})^T (X(1),...,X(n))T，由 ( X ( 1 ) , . . . , X ( n ) ) T (X_{(1)},...,X_{(n)})^T (X(1),...,X(n))T 可定义在应用上有重要意义的样本中位数与样本极差。

称统计量
M e = { X ( ( n + 1 ) / 2 ) , n 为奇数 1 2 ( X ( n / 2 ) + X ( ( n + 1 ) / 2 ) ) , n 为偶数 Me=\begin{cases} X_{((n+1)/2)}, &n 为奇数 \\ \frac{1}{2}(X_{(n/2)}+X_{((n+1)/2)}), &n 为偶数 \end{cases} Me={X((n+1)/2),21(X(n/2)+X((n+1)/2)),n为奇数n为偶数

为样本中位数。样本中位数具有计算方便且不受样本值中的异常值 (outlier) 影响的特点，因而有时比样本均值更具有代表性。

称统计量
R = X ( n ) − X ( 1 ) R=X_{(n)}-X_{(1)} R=X(n)−X(1)

为样本极差。样本极差是反映样本值分散程度的量。

经验分布函数

设 ( X 1 , . . . , X n ) T (X_1,...,X_n)^T (X1,...,Xn)T 为总体 X X X 的一个样本，其顺序统计量为 ( X ( 1 ) , . . . , X ( n ) ) T (X_{(1)},...,X_{(n)})^T (X(1),...,X(n))T。当样本的观察值为 ( x 1 , . . . , x n ) T (x_1,...,x_n)^T (x1,...,xn)T 时，顺序统计量的观察值为 ( x ( 1 ) , . . . , x ( n ) ) T (x_{(1)},...,x_{(n)})^T (x(1),...,x(n))T，对任意实数 x x x，记 F n ( x ) = { 0 , x < x ( 1 ) k n , x ( k ) ≤ x < x ( k + 1 ) , k = 1 , 2 , . . . , n − 1 1 , x ( n ) ≤ x F_n(x)=\begin{cases}0, &x<x_{(1)}\\ \frac{k}{n}, &x_{(k)}\le x <x_{(k+1)},k=1,2,...,n-1\\ 1, &x_{(n)}\le x \end{cases} Fn(x)=⎩ ⎨ ⎧0,nk,1,x<x(1)x(k)≤x<x(k+1),k=1,2,...,n−1x(n)≤x 则称 F n ( x ) F_n(x) Fn(x) 是经验分布函数。

经验分布函数的性质：

F n ( x ) F_n(x) Fn(x) 是 x x x 的单调非降函数；
F n ( x ) F_n(x) Fn(x) 是 x x x 的右连续函数；
F n ( − ∞ ) = 0 , F n ( + ∞ ) = 1 F_n(-\infty)=0,F_n(+\infty)=1 Fn(−∞)=0,Fn(+∞)=1

参考文献

$1$ 《应用数理统计》，施雨，西安交通大学出版社。