在数据分析中所需要运用到的概率论知识

数据分析


前言

参数和统计量在数据分析中起着至关重要的作用。参数是对总体特征的描述,如均值、方差等,而统计量则是基于样本数据计算得出的,用于估计或推断总体参数的值。

在统计学中,参数通常被视为未知的固定值,而统计量则是随机变量,因为它们的值会随着样本的不同而变化。这种差异使得统计量在推断总体参数时具有重要意义。例如,我们可以通过计算样本均值来估计总体均值,这就是一个典型的统计量应用。

然而,仅仅依赖统计量进行推断是不够的。我们还需要借助概率论和数理统计的理论,来构建合适的置信区间或假设检验,从而对总体参数进行更准确的估计和推断。这些方法的应用,不仅要求我们对参数和统计量的概念有清晰的理解,还需要我们具备扎实的数学基础和数据分析能力。

在实际应用中,参数和统计量的选择也会受到多种因素的影响。例如,样本量的大小、总体分布的特性以及我们所关心的具体问题等。因此,在进行数据分析时,我们需要根据具体情况选择合适的参数和统计量,并结合适当的统计方法进行分析和推断。

总之,参数和统计量是数据分析不可或缺的工具。通过深入理解它们的概念和性质,以及掌握相关的统计方法和技术,我们可以更好地从数据中提取有用的信息,为决策和预测提供更为可靠的依据。


一、总体

在统计学中,总体是指包含所研究对象的全部数据(也称个体)的集合 ,它通常由所研究的数据记录组成,如由多个企业构成的数据集合,多个家庭构成的数据集合,多个自然人构成的数据集合。总体中的每一个元素都被称为一个数据或一条数据记录 ,在由多个企业构成的总体中,每一个企业就是一条数据记录,由多个家庭构成的总体中,每一个家庭就是一条数据记录,由多自然人构成的总体中,每一个自然人就是一条数据记录。总体是指客观存在的,在同一性质基础上结合起来的多个单位的整体。构成总体的这些单位称为总体单位。确定总体与总体单位,必须考虑下述两个方面的问题。

  1. 第一,构成总体的单位必须是同质的,不能把不同质的单位混在总体之中。比如,在研究工人的工资水平时,就只能将靠工资收入的职工列入统计总体的范围。同时,也只能对职工的工资收入进行考察,对职工由其他方面取得的收入就要加以排除,这样才能正确反映职工的工资水平。

  2. 第二,随着研究对象的变化,总体与总体单位之间的关系是具有相对性的。在一些情况下,一个单位可以是总体,而在另外一些情况下,这个单位也可能就成为一个总体的单位。比如,为了研究全国国有工业企业职工的工资收入情况,那么国内全部国有企业构成一个总体,各个国企是这个总体的单位。如果我们准备研究某一个国有企业职工的工资收入情况,则该企业就成为一个总体,每位职工的工资就是该总体的单位。

一个总体是根据研究目的来确定的同质观察单位的全体。更确切地说,它是根据研究目的来确定的同质观察单位某种变量值的集合。比如,所有的工业企业构成一个总体,这是因为在性质上每个工业企业的经济职能是相同的,即都是从事工业生产活动的基本单位,这就是说,它们是同性质的。这些工业企业的集合就构成了统计总体。对于该总体来说,每一个工业企业就是一个总体单位。

二、样本

样本是用于观测或调查的一部分个体 ,是从总体中抽取的所要考查的元素总称,样本中个体的多少叫样本容量。比如,在水质检验时,从河水中采的水样,在临床化验中,从病人身上采的血液都是样本。

由于一个总体中包含的观察单位通常是大量的甚至是无限的,在实际工作中,一般不可能或不必要对每个观察单位逐一进行研究。我们只需从中抽取一部分观察单位加以实际观察或调查研究,根据对这一部分观察单位的观察研究结果,再去推论和估计总体情况。

所以说,观察样本的目的在于推论总体,这就是样本与总体的辩证关系 。我们总结关于样本的基本概念。首先,样本是从总体中选取的一部分。样本数量是有多少个样本。样本大小或样本容量是每个样本里包含多少个数据。

三、统计抽样

统计抽样是应用统计方法从总体中抽取样本,根据对样本的分析来推断总体的正确性和适当性的一种统计方法。使用这种方法要对选样内容进行判断,并决定样本误差率,如果样本审核结果的误差率超过预定的百分比,就应增加样本继续抽查。也就是说,为了研究总体,我们需要从总体中抽出一部分样本,并对这部分样本进行分析,来了解总体中的情况。这种对总体研究过程是从总体到样本再到总体。统计抽样必须满足随机选取样本的条件,同时运用概率论评价样本结果这两个特征。

抽取的基本准则

那么如何抽取样本?这里有两个抽取的基本准则,

  1. 一是抽取的样本要具有代表性
  2. 二是尽量减少误差。

常见的抽样方法主要有4种方法,分别为:随机抽样,分层抽样,整体抽样,系统抽样

四、随机抽样

如果每次样本使总体内的每个个体被抽到的几率都相等,就把这种抽样方法叫做简单随机抽样。随机抽样要求严格遵循概率原则,每个抽样个体被抽中的概率相同,并且可以重现。随机抽样常常用于总体个数较少时,它的主要特征是从总体中逐个抽取。随机抽样主要有2种方法,抽签法和随机数法。我们对他们分别进行介绍。

抽签法

该方法又称"抓阄法",是先将总体中的N个个体进行编号,然后采用随机的方法任意抽取号码,连续抽取n次,就得到一个容量为n的样本。

抽签法简单易行,适用于总体中的个数不多时。当总体中的个体数较多时,用抽签法产生的样本具有的误差可能很大。可以设计一个9面的骰子,这个骰子上0-9的数字的出现,都应该有同等的概率。

例如:要从1000个样本中选出10个样本,则把一个骰子投3次,以最先得到的数字为百位,第2次为十位,第3次得到为个位,组成一个数,反复转动骰子,可得到一组数据,即为样本的序号。

随机数法

在设计随机抽样方案时,另一个经常被采用的方法是随机数法,即利用随机数表或计算机产生的随机数进行抽样。

该方法优点是操作简便易行。

例如,某企业要调查消费者对某产品的需求量,要从95户居民家庭中抽选10户居民码表法抽选样本。

具体步骤如下:

  • 第一步:将95户居民家庭编号,每一户家庭一个编号,即01~95。 (每户居民编号为2数)

  • 第二步:在上面的表中,随机确定抽样的起点和抽样的顺序。假定从第一行,第6列开始抽,抽样顺序从左往右抽。(横的数列称"行",纵的数列称为"列"。因此此处第六列为数字3。)

  • 第三步:依次抽出号码,由此产生10个样本单位号码为: 37、38、63、69、64、73, 66, 14, 69, 16编号为这些号码的居民家庭就是抽样调查的对象。需要说明,编号69的居民家庭两次出现在样本里。这属于重复抽样。

所谓重复抽样,是指总体中某一单位被抽中作为样本后,再放回总体中,有可能第二次被抽中作为样本。

不重复抽样是指总体中的每个单位只可能抽中一次作为样本。即某一单位抽中作为样本后,不能再放回总体中,也就没有可能第二次被抽中作为样本。

采用随机号码表法抽取样本,完全排除主观挑选样本的可能性,使抽样调查有较强的科学性。该方法优点是操作简便易行 ,而缺点是当总体过大,方法不易实行

五、分层抽样

分层抽样是指在抽样时,将总体分成互不相交的多个层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本的方法。分层以后,要求层内变异越小越好,层间变异越大越好。在每一层进行简单随机抽样,确定不同层中所抽取的个体个数的方法一般有以下3种。

  1. 第一种方法为等数分配法,就是对每一层都抽取同样的个体数。
  2. 第二,等比分配法,具体算法是每一层抽得的个体数与该层总体数之比都相同。
  3. 第三,最优分配法,算法利用最优分配公式确定每层抽得的样本数。

一般来说,分层抽样方法具有下述3个优点,首先,能够减小抽样误差,分层后增加了层内的同质性,因而可使观察值的变异度减小,各层的抽样误差减小

在样本含量相同的情况下,分层抽样总的标准误一般均小于单纯随机抽样、系统抽样和整群抽样的标准误

第二个优点是抽样方法灵活,可以根据各层的具体情况对不同的层采用不同的抽样方法。比如,某自行车企业调查某地消费者对自行车的需求,可分为城,乡两层。

第三是可对不同层独立进行分析。

分层抽样的缺点是如果分层变量选择不当,层内变异较大,层间均数相近,分层抽样就失去了意义。分层抽样要求数据集中有足够的辅助信息,能够将总体单位按某种标准划分到各层之中,实现在同一层内,各单位之间的差异尽可能小,不同层之间各单位的差异尽可能大。

六、整群抽样

整群抽样,也称聚类抽样,是将总体中的个体归并成若干个互不交叉,互不重复的集合,称这种集合为群。然后以每个群为抽样单位来进行抽取样本的一种抽样方式。应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小。

整群抽样的优点是便于组织,能够节省人力,物力,和时间,容易控制调查质量

整群抽样的缺点是往往由于不同群之间的差异较大,由此而引起的抽样误差往往大于简单随机抽样。虽然整群抽样与分层抽样在形式上有一定相似之处,但实际上的差别是很大的。

主要表现在,

  1. 第一,分层抽样要求各层之间的差异大,层内个体差异小,而整群抽样要求群与群之间的差异比较小,群内个体差异大。
  2. 第二,分层抽样的样本是从每个层内抽取若干个体构成,而整群抽样则是要么整群抽取,要么整群不被抽取。

七、系统抽样

系统抽样方法是首先将总体中个体按一定顺序排列,根据样本容量要求确定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个单位的一种抽样方式。系统抽样是纯随机抽样的改进方法。

在系统抽样中,先将总体从1 ~ N相继编号,并计算抽样距离K=N/n

式中N为总体的个体总数,n为样本容量。我们可以按下列步骤进行系统抽样:

  1. 编号,先将总体的N个个体编号。
  2. 分段,确定分段间隔K,对编号进行分段。
  3. 确定初始编号,在第1段用简单随机抽样确定第一个个体编号L
  4. 抽取样本,按照一定的规则抽取样本。通常是将L加上间隔K获得第二个个体编号L+K,依次进行下去,直到获取整个样本。

八、统计参数

我们定义统计参数为描述总体特性的指标 ,简称参数。参数表示总体的特征,是我们要研究或调查的指标。通常一个总体包括有多个参数,在讲到参数的时候,要明确它是总体的哪个参数。参数是对整个总体的描述性度量,它可用作概率分布函数的输入以生成分布曲线。参数通常用是固定常量,也就是说,它们不会像变量一样变化。不过,它们的值通常是未知的,因为对整个总体进行度量是不可行的。每个分布完全由若干个特定参数来定义,参数的个数通常为一到三个。参数值决定了分布图上的曲线的位置和形状,参数值的每个唯一组合可产生唯一的分布曲线。

常用的分布函数参数

常用的分布函数参数可以大致分为以下二类。

  1. 一是描述分布集中趋势的参数 。包括各种平均数,中位数,和众数等。
  2. 二是描述分布离散离散程度的参数 ,包括,方差,标准差,极差

我们总结统计参数概念,统计参数是含在总体中的未知数字特征或其他未知数。为了估计未知参数的真值或其所在区间,就要从总体中抽取样本,然后用样本构造某种统计量,来估计未知参数或其范围。

九、样本统计量

因为对整个总体进行度量是不可行的,参数值通常是未知的。因此,我们可以从总体取一个随机样本以获得参数估计值统计分析的一个目标是获得总体参数的估计值,以及与这些估计关联的误差量

这些估计值也称为样本统计量。统计量就是用来估计总体未知参数的。统计量与参数的区别,参数是存在于总体,代表总体的一些特征,通常是一个常数值。统计量是从一个样本中计算得到的量数,它描述一组数据的情况,是一个变量,随抽取样本的变化而变化。总体参数通常是通过样本统计量来预测得到的。另一方面,统计量还可以用来对数据进行分析,检验的变量。

由于统计量是样本的已知函数,其作用是把样本中有关总体的信息汇集起来,是统计推断中一个重要的基本概念。统计量只依赖于样本信息,它不含总体分布的任何未知参数。由于样本来自于总体,但是要把零散的信息集中起来反映总体的特征,就需要对样本进行加工,一种有效的办法就是构造样本的函数,不同的函数反映总体的不同的特征。我们把这种样本函数定义为统计量,把统计量的分布定义为抽样分布。

十、样本均值和样本方差

我们介绍最常用的统计量样本均值,样本方差,和样本标准差,对于给定的样本容量为n的样本x= (x,x2...xm)


十一、描述样本集中位置的统计量

有3个统计量通常用于描述样本数据的集中位置 ,它们分别为样本均值,样本中位数,和样本众数

样本均值

我们首先讨论均值概念。

数据的均值,也就是数学期望,是表示一组数据集中趋势的数值,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标

均值是统计领域中的一个重要概念。它是描述数据集中位置的一个统计量,既可以用它来反映一组数据的平均水平,也可以用它进行不同组数据之间的比较,以看出组与组之间的差别。用平均数表示一组数据的情况,具有直观和简明的特点,所以我们经常用到平均速度和平均产量。

样本均值是将抽取到的样本数据进行均值计算后的结果,常常用样本均值来估计总体均值 ,由于样本均值就是一阶原点矩 ,我们通常称这种估计为样本矩方法。一般来说,用样本矩或其函数估计总体矩或其函数的方法称为矩估计法

样本中位数

所谓中位数是按顺序排列的一组数据中居于中间位置的元素,代表数组的一个数值,其可将数据集合划分为相等的上下两部分。

对于有限的数集,可以通过把所有数据值高低排序后找出正中间的一个作为中位数。如果数据个数是偶数个,通常取最中间的两个数值的平均数作为中位数。

比如,一个由100数据构成的数组,那么排序后第50和51个数值的平均值就是中位数,如果一共有101个数据,那第51个数值就是中位数。

样本中位数就是将样本数据集合看成一个数组,然后对数组排序后按中位数定义来获得。

样本众数

众数是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平。也是一组数据中出现次数最多的数值,有时众数在一组数中有好几个,出现次数最多的数就叫这组数据的众数。

需要注意的是众数是在一组数据中出现次数最多的数据,是一组数据中的原数据,而不是相应的次数。

普遍水平。当样本容量较小时,可以直接求出众数,当样本容量较大时,可以根据频数分布求样本众数或求样本众数的近似值。

样本众数是样本数据中出现次数最多的数值。样本众数反映的是抽取样本最也是一组数据中出现次数最多的数值,有时众数在一组数中有好几个,出现次数最多的数就叫这组数据的众数。

需要注意的是众数是在一组数据中出现次数最多的数据,是一组数据中的原数据,而不是相应的次数。当样本容量较小时,可以直接求出众数,当样本容量较大时,可以根据频数分布求样本众数或求样本众数的近似值。

十二、描述样本分数程度的统计量

一组数据内部总是有差别的,反映数据内部差异或分数程度的统计量有样本方差,样本标准差,样本极差,和样本变异系数

样本方差

方差是一组数据中各数值与其算术平均数离差平方和的平均数

总体方差是先求出个体变量值与平均值的离差的平方,然后再对此变量取平均数,就叫做样本方差。样本方差用来表示一列数的变异程度。

样本方差为构成样本的变量值与其平均值的离差的平方和,再除以n-1,用来表示一列数的变异程度。我们注意到计算总体方差的分母是n,而计算样本方差的分母是n-1

样本标准差

标准差就是方差的开平方,标准差通常是相对于数据的平均值而定的,表示数据集中某个数据值相距平均值有多远。

样本标准差表示的就是样本就是样本方差的开平方,表示样本中的某个数据观察值相距平均值有多远。从这里可以看到,标准差越小,表明数据越聚集,标准差越大,表明数据越离散。

样本极差

极差是用来表示一个数据集中的变异量数,其最大值与最小值之间的差距,即最大值减最小值后得到的数据。极差可以用来评价一组数据的离散度,比如在一些比赛中的打分中,去掉最高最低分就是极差的具体应用。

极差只说明了数据的最大离散范围,而不是使用全部数据值的信息,不能细致地反映数据彼此相符合的程度,它的优点是计算简单,含义直观,运用方便,在数据处理中仍有着相当广泛的应用。但是,它仅仅取决于两个极端值的情况,不能反映数据分布情况,同时易受极端值的影响。

样本极差就是样本中最大值与最小值之间的差距,用来刻画一组样本数据的离散程度,样本极差越大,样本离散程度越大,反之,样本离散程度越小

样本变异系数

样本变异系数是样本标准差与样本均值之比,是在消除量纲影响后的样本分散程度的一种度量。

十三、顺序统计量

假设n为样本容量,顺序统计量是指将n个样本自小到大进行排序,则这个排列称为样本顺序统计量。任意抽取一组样本,我们便有一组自小到大的观察值与之相对应,其中排在第一的是观察值中最小者,排在最后的是观察值中最大者。

比如,样本值为3, 2, 4, 5, 6,则其顺序统计量为2, 3, 4, 5, 6。

我们可以用顺序统计量或其函数来对总体的参数进行估计。比如,用样本极差估计总体的标准差。

通过顺序统计量,我们可以计算出其中位数,因此,可以用这个中位数估计总体的平均数信息。这就是用样本中位数估计总体的数学期望的方法

如果我们需要用顺序统计量估计总体的均值和标准差,则样本中位数和样本极差是一个选择,且他们都是顺序统计量的函数,这类函数计算简便,而且样本中位数不受样本中异常值的影响,无论总体服从哪种分布,我们都可以样本中位数殳作为总体均值的估计量。如果用样本极差作为总体标准差的估计量,这种估计结果可能不太好,相对来说比较粗糙。

十四、统计量评判标准

由于统计量是样本的函数,是一个随机变量,所以评价一个统计量的优劣,不能仅仅依据一次抽样结果,而必须由多次抽样结果来衡量。一个好的统计量应该在多次抽样中尽可能接近总体参数的真值。

常用的几个用于评价统计量是否优良性的原则标准为无偏性,有效性,和一致性,我们接下来对其进行介绍。

无偏性

统计量的无偏性并不是要求与总体参数不能够有偏差,在抽样的情况下这是不可能的,抽样必然导致抽样误差,不可能与总体完全相同。

无偏性指的是如果对这同一个总体反复多次抽样,则要求各个样本所得出的统计量的平均值等于总体参数

所以我们定义如果统计量的数学期望值等于被估计总体参数的真值,则称为其具有无偏性,这样的统计量也称为无偏统计量。

有效性

样本统计量与总体参数之间必然存在着一定的误差,衡量这个误差大小的一个指标就是标准差,标准差越小,统计量对总体的估计也就越准确,这个统计量也就越有效。所以我们定义对同一总体参数的两个无偏统计量,具有更小标准差的统计量更有效

一致性

一致性指的是当样本容量逐渐增加时,样本的统计量能够逐渐逼近待估计的总体参数的真实值

十五、抽样误差

抽样误差是指由于随机抽样的偶然因素,或样本结构与总体结构不一致,样本不能完全代表总体,而引起抽样指标与总体指标的绝对离差。抽样误差是数量上的误差,就是只调查部分群体所造成的误差。样本容量越大,抽样误差也能够减小,比如3000个人中只抽100人和抽2000人,则后者的抽样误差较前者小。对于只抽部分群体来做的调查,抽样误差是不可避免的。我们只能说把抽样误差降低到可被接受的范围。抽样误差是可以计算的。

因为既然是抽样,就肯定会有一定程度的随机性,也就有抽样误差。那么如何衡量抽样误差?

抽样分布的方差或标准差越大,抽样的随机误差就越大,所以我们通常用抽样分布的方差或标准差来衡量抽样的随机误差。

从理论上看,抽样的随机误差与三个因素有关。

  1. 一是样本容量,样本容量越大,抽样误差越小,这个很好理解。在极端情况下,如果能进行普查,就不会有随机误差了。
  2. 二是抽样时是否分层,分层抽样能够降低抽样的随机误差。
  3. 三是抽样时是否分群,整群抽样会增加抽样的随机误差。

实际抽样误差的列子,为了计算一个班级男生的平均身高,假设共有18个男生,身高为170cm的6个,为175cm的6个,为180cm的6个,平均身高为175,抽样抽了5个人,分别是170, 180,180,180,180,如果用这组样本来计算平均身高,很明显就存在误差了,这就是抽样误差。抽样误差是样本估计值与被推断的总体真实值之差。

由用局部的样本统计量对整体的总体参数作出估计所引起的误差。它是一种随机误差,是由于偶然性因素产生的,不可避免。

标准误

那么如何衡量样本均值和总体均值的差距或抽样误差有多大?

我们可以用标准误来表示样本均值和总体均值的的抽样误差。标准误是统计学的的难以理解的概念之一。

标准误的定义是样本均值的标准差,它反映了每次抽样样本之间的差异。

如果标准误小,则说明多次重复抽样得到的统计量差别不大,提示抽样误差较小。

反之,如果标准误大,则说明样本统计量之间差别较大,提示抽样误差较大。

标准误用于预测样本数据准确性,标准误越小,样本均值和总体均值差距越小,样本数据越能代表总体数据

通常用样本均值的标准差作为衡量其抽样误差一般水平的尺度,也就是标准误。根据样本均值标准差的定义,我们有样本均值标准差的理论计算公式:

为了简化计算,在实际工作中,对不重复抽样的情况也往往采用重复抽样公式计算抽样平均误差。

所以标准误也是另外一种形式的标准差,标准误和总体标准差既有相似处,又有区别。

标准误是一个比较难得概念,同学们一次不能很好理解,如果反复学习,然后自己动手程序模拟,就会增强直观印象,加深理解。

标准误与标准差区别:对一个总体多次抽样,每次样本大小都为n,那么每个样本都有自己的平均值这些平均值的标准差叫做标准误。

标准差是单次抽样得到的,用单次抽样得到的标准差可以估计多次抽样才能得到的标准误差

十六、置信区间

抽样估计时,要求确定可允许的误差范围,在这个范围内的数字都算是有效的。我们把这种可允许的误差范围称为抽样极限误差。

  1. 一方面,必须处理好抽样误差与置信度之间的关系。所谓置信度就是进行推断时的可靠程度大小。置信区间的跨度是置信度的正函数,即要求的置信度越大得到置信区间也较宽,这就相应降低了估计的准确程度。所以,置信度的提高必然会加大抽样误差范围,同时降低了抽样调查的准确程度。一般在市场调查实践中,对于抽样误差范围或置信度是在调查方案中事先规定的,并据此确定样本容
    量。
  2. 另一方面,进行区间估计,以样本指标推断总体指标 。区间估计是在考虑到抽样误差的情况下以样本指标推断总体指标的过程,同时必须联系到前面所谈到的抽样误差与置信度的关系。具体到指标,区间估计可以用样本均值推断总体均值,也可以用样本比例推断总体比例

十七、抽样分布

由于样本统计量是样本数据的一个函数,统计量分布是指样本函数的分布,在统计学中称作抽样分布。以样本均值函数为例,它是总体数学期望的一个估计量,如果按照相同的样本容量,相同的抽样方式,反复地抽取样本,每次都可以计算出一个期望值,所有可能样本的期望值所形成的分布,就是样本期望值的抽样分布。

由于统计量由样本决定,所以统计量因样本而异,对于同一个总体,抽取不同的样本,统计量就不同,在重复选取样本时,由于该统计量的所有可能取值形成的相对频率分布,所以该统计量也是一个随机变量。虽然统计量不依赖于任何参数,但统计量的分布一般依赖于未知参数。

我们为什么关心统计量的概率分布?因为他提供了样本统计量长远而稳定的信息,是抽样推断可行性的重要依据。寻找统计量的精确的抽样分布,属于小样本问题,对任意一个n,求出给定统计量的精确分布的问题。另外一个是大样本问题,当统计量的精确分布得不到时,设法求出它的极限分布的问题。我们需要区分统计量与样本数据分布之间的不同,前者是样本函数的分布,后者是指样本数据的联合分布。由于统计量的抽样分布与正态分布有紧密联系,接下来,我们首先介绍正态分布的相关知识。

十八、正态分布




十九、样本的抽样分布

样本均值的抽样分布

设总体共有N个元素,从中随机抽取一个容量为n的样本,如果我们使用不重复抽样,有多少种可能性?

这是一个组合问题。共有一般地,从N个不同的元素中,任取n (n<N)个元素为一组,叫作从N个不同元素中取出n个元素的一个组合。素比如,当N=5, n=2时,可能的组合个数就等于10个,即,我们有10种不重复抽样。10组不同的样本。每一组样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。

但现实中不可能将所有的样本都抽取出来,为什么? N=50, n=10时,可能的组合个数就就达到千万的级别,因此,样本均值的概率分布实际上是一种理论分布。

样本均值函数的抽样分布是所有可能的样本均值形成的分布,统计学理论已近证明样本均值的抽样分布在形状上是对称的。随着样本量n的增大,不论原来的

在实际中,生成以上所示的采样分布表是不可行的。即使在理想的情况下(即知道样本的总体),可能仍无法确定所需样本统计量的精确抽样分布。但是,在某些情况下,可能能够大致地确定样本统计量的抽样分布。例如,如果从正态总体中取样,则样本平均值具有完全的正态分布特征。

但是,如果从一个非正态分布总体中抽样,则可能无法确定样本均值的准确分布。但是,由于中心极限定理,样本均值近似地呈正态分布,前提是样本足够大。如果总体分布未知但是样本足够大,也就能够做出判断。

样本比例的抽样分布

样本比例函数是指从总体中随机抽取容量为n的样本,某一特征出现次数占样本容量n的比例,其抽样分布就是样本比例函数的概率分布。

总体中具有某一特征单位数占总体全部单位数的比例称为总体比率,用P表示。样本中具有某一特征的单位数占样本全部单位数的比例称为样本比例,用p表示。

比如,特征可以是产品

样本方差抽样分布

样本方差抽样分布是从总体中重复随机抽取容量为n的样本数据,对每次抽样都计算样本方差,所有样本方差可能的取值形成的概率分布。

我们将看到,当总体服从正态分布,从中抽取容量为n的样本,样本方差与总体方差的比值服从自由度为n-1的卡方分布。

正态分布总体下统计量的抽样分布

正态总体下的抽样分布 指的是总体是正态分布,从总体中抽出样本,构造统计量,研究统计量的分布。

由于正态总体是最常见的总体,因此这里主要讨论正态总体下的抽样分布.由于这些抽样分布的论证要用到较多的数学知识,我们只给出结论。在正态总体情况下,如果我们对任何样本容量n,都能导出其统计量分布的数学表达式,我们称这种分布称为精确的抽样分布。

这样的统计量对样本容量较小的统计推断问题非常有用。在正态总体条件下,满足精确的抽样分布的统计量主要有x^2^统计量, t统计量,和F统计量,其对应的分布为称为x^2^分布,t分布,和F分布。

卡方统计量

卡方统计量是指抽取出样本的实际观测值与总体理论推断值之间的偏离程度 ,样本观测值与理论推断值之间的偏离程度就决定卡方值的大小,当卡方值越大,二者就存在较大程度的偏差,反之,二者偏差较小,若两个值完全相等时,卡方值就为0,表明样本观测值与理论值完全符合

假设样本容量为n的样本数据都是从一个正态分布总体中抽取,我们就能够计算出每一组样本对应的卡方值,由于抽样的随机性,卡方统计量也是一个随机变量,那么这些卡方统计量的所有可能取值将构成关于样本方差和总体方差的卡方我们来看看卡方统计量定义,卡方统计量的计算公式为:

卡方值用于衡量实际值与理论值的差异程度,它包含了以下两方面信息,

  • 第一,实际值与理论值偏差的绝对大小,由于平方的存在,差异是被放大了,

  • 第二,差异程度与理论值的相对大小有关系。

由于卡方统计量是通过样本计算,而抽样过程是随机,卡方统计量也是一个随机变量,那么它的分布就是卡方分布。

其定义如下:设一组来自标准正态分布总体的样本,且容量为n,根据上式构造卡方统计量如下:

t统计量

正态总体的情况下,t统计量主要用于样本容量较小,总体标准差未知的情况。如果总体的标准差未知,t统计量可以用来对总体的均值进行检验,我们先讨论t统计量的定义。

假设抽取样本的容量为n,我们有:t统计量 = (样本均值 - 总体均值)/ 样本均值标准差

由于总体标准差无法得知,因此一般用样本均值标准差,也就是标准误,来近似总体标准差。在关于标准误的讨论中,我们已知如果样本容量为n,样本均值的标准差等于总体的标准差除以样本容量。

我们知道t统计量服从t分布,因为标准误与样本容量n直接相关,所以t统计量的t分布也与样本容量n有关,这就是t分布的自由度。

t分布的自由度一方面与样本容量n直接相关,另一方面还受到样本均值计算公式的约束,即n个数值相加在除以n,所以由样本均值和另外n-1个数就能够推导出剩下的未知数,或相当于n个样本只有n-1个是不受约束的。所以样本有n-1个自由度意味着t统计量分布的自由的是n-1个。

当n的数目越大,样本对总体的代表性越好。同时n也影响t统计量的形状,或者说t统计量的分布是样本容量n的函数,也就是自由度的函数。t分布与正态分布的关系是当n的数目非常大时, t分布就越接近正态分布。

t统计量的分布就是t分布,t统计量被广泛应用于t检验中,用t分布理论来推论差异发生的概率,从而比较两个均值的差异是否显著

F统计量

假设样本容量分别为n和m随机抽取的二组样本,分别来自两个正态分布总体,且二者相互独立。F统计量主要通过比较两组样本数据的方差来判断两总体方差是否相同,

F统计量的定义如下:F统计量=第一组数据样本方差/第二组数据样本方差

其中:样本方差是样本值与其平均值的离差的平方和,再除以样本容量减1。F统计量服从自由度分别为n-1和m-1的F分布,从另外一个角度来看, F统计量是两个服从卡方分布的独立随机变量各除以其自由度后的比值的抽样分布。

第一组样本的方差服从自由度为n-1的卡方分布,第二组样本的方差服从自由度为m-1的卡方分布,由于两组样本相互独立,可以被看成是两个卡方分布的比值服从的分布为F分布,其中第一自由度为n-1,第二自由度为m-1。

F分布是一种非对称分布,且位置不可互换。F分布有着广泛的应用,如在方差分析,回归方程的显著性检验中都有着重要的地位


相关推荐
zmd-zk几秒前
flink学习(2)——wordcount案例
大数据·开发语言·学习·flink
电子手信3 分钟前
知识中台在多语言客户中的应用
大数据·人工智能·自然语言处理·数据挖掘·知识图谱
隔着天花板看星星27 分钟前
Kafka-Consumer理论知识
大数据·分布式·中间件·kafka
holywangle28 分钟前
解决Flink读取kafka主题数据无报错无数据打印的重大发现(问题已解决)
大数据·flink·kafka
隔着天花板看星星29 分钟前
Kafka-副本分配策略
大数据·分布式·中间件·kafka
shansjqun38 分钟前
教学内容全覆盖:航拍杂草检测与分类
人工智能·分类·数据挖掘
Lorin 洛林1 小时前
Hadoop 系列 MapReduce:Map、Shuffle、Reduce
大数据·hadoop·mapreduce
DolphinScheduler社区1 小时前
大数据调度组件之Apache DolphinScheduler
大数据
SelectDB技术团队1 小时前
兼顾高性能与低成本,浅析 Apache Doris 异步物化视图原理及典型场景
大数据·数据库·数据仓库·数据分析·doris
nuclear20111 小时前
使用Python 在Excel中创建和取消数据分组 - 详解
python·excel数据分组·创建excel分组·excel分类汇总·excel嵌套分组·excel大纲级别·取消excel分组