《机器学习》2.4假设检验 t分布 F分布

样本均值的分布：当你从正态分布的总体中抽取一个样本，并且样本量较小（通常认为小于30），那么样本均值除以其标准误差（即样本标准差除以样本量的平方根）将遵循t分布。
未知总体标准差：当总体标准差未知，并且需要用样本标准差来估计时，样本均值的标准误差将使用t分布来计算置信区间或进行假设检验。
小样本数据：在样本量较小的情况下，t分布比正态分布更能准确地描述样本均值的分布情况，因为它考虑了样本量小所引起的额外变异性。

具体来说，以下变量或统计量符合t分布：

t统计量：在假设检验中，t统计量通常定义为

t=Xˉ−μs/nt=s/nXˉ−μ
其中，XˉXˉ 是样本均值，μμ 是总体均值，ss 是样本标准差，nn 是样本量。当总体是正态分布且样本量较小时，这个统计量遵循t分布。
置信区间：在构建均值的置信区间时，如果样本量较小且总体标准差未知，那么置信区间的计算将基于t分布。
差异检验：在比较两个独立样本均值或配对样本均值差异的假设检验中，如果样本量较小，那么这些检验的统计量通常遵循t分布。

需要注意的是，t分布的准确性依赖于数据来自正态分布的假设。如果总体分布不是正态的，或者数据存在异常值，那么t分布可能不是一个准确的模型。在实际应用中，通常通过样本数据的正态性检验（如Shapiro-Wilk检验）来评估数据是否符合正态分布的假设。如果数据不满足正态性假设，可能需要使用非参数统计方法。

数据服从t分布通常是在以下情况下：

小样本量：当样本量较小（通常小于30）时，样本均值的分布更接近t分布而不是正态分布。这是因为小样本量下，样本标准差对总体标准差的估计不够精确，导致样本均值的分布有更厚的尾部。
总体标准差未知：当总体标准差未知，且需要使用样本标准差来估计时，样本均值的分布会服从t分布。这是因为样本标准差的变异性会增加样本均值分布的不确定性。
正态性假设：t分布的使用假设数据来自一个正态分布的总体。如果数据显著偏离正态分布，那么t分布可能不是最合适的分布来描述样本均值的分布。
独立性：数据点之间应该是独立的。如果数据点之间存在相关性，那么t分布的假设可能不成立。

在实际应用中，t分布常用于t检验（t-test），这是一种统计检验，用于比较两个小样本均值的差异是否显著。t检验包括独立样本t检验（用于比较两个独立样本的均值）和配对样本t检验（用于比较同一组样本在两种不同条件下的均值）。

此外，t分布也用于构建小样本均值的置信区间，以及在回归分析中对回归系数进行假设检验。

总之，当样本量小、总体标准差未知、数据来自正态分布总体且数据点独立时，数据会服从t分布

以下是一些具体的例子，说明在何种情况下数据会服从t分布：

小样本均值的置信区间：
- 假设你想要估计某种新药对降低血压的效果。你随机选取了10名高血压患者作为样本，测量他们在服用药物前后的血压变化。由于样本量较小（n=10），你使用样本标准差来估计总体标准差，并构建均值血压变化的置信区间。这种情况下，样本均值的分布会服从t分布。
小样本均值的假设检验：
- 一个研究者想要比较两组学生的考试成绩，一组接受了新的教学方法，另一组接受了传统教学方法。每组只有15名学生。研究者想要检验新教学方法是否有效。由于样本量较小，他使用独立样本t检验来比较两组的均值，这个检验基于t分布。
配对样本的假设检验：
- 一个心理学家想要研究冥想对减少焦虑的效果。她让一组志愿者在冥想前后完成焦虑量表。由于数据是配对的（冥想前后的焦虑分数），并且样本量较小（比如n=20），她使用配对样本t检验来确定冥想是否有显著效果。这个检验同样基于t分布。
单样本均值的假设检验：
- 一个工厂的质量控制部门想要检验他们生产的零件的平均重量是否符合标准。他们随机抽取了25个零件进行称重。由于他们不知道总体标准差，他们使用样本标准差来估 计，并进行单样本t检验来比较样本均值和标准重量。这种情况下，样本均值的分布会服从t分布。
回归分析中的假设检验：
- 在回归分析中，研究者可能会使用t检验来检验单个回归系数是否显著不为零。例如，一个经济学家可能使用回归模型来预测房价，其中一个自变量是房屋的面积。他使用t检验来确定房屋面积对房价是否有显著影响。在这种情况下，回归系数的检验统计量服从t分布。

这些例子展示了在实际研究中，当样本量较小且总体标准差未知时，t分布是如何被用来构建置信区间和进行假设检验的。

t检验

交叉验证t检验

2.4 P40

5*2交叉验

样本方差

F分布（fisher

F分布，也称为Fisher-Snedecor分布，是一种连续概率分布，它在统计学中被用来比较两个样本的方差。F分布由两个独立的卡方分布变量的比值构成，每个变量都除以其相应的自由度。F分布的形状由两个参数决定，即分子的自由度（df1）和分母的自由度（df2）。

F分布的数学表达式为：

其中：

χ12χ12 是分子的卡方分布变量
χ22χ22 是分母的卡方分布变量
df1df1 是分子的自由度
df2df2 是分母的自由度

F分布常用于方差分析（ANOVA）和回归分析中。在方差分析中，F检验被用来确定三个或更多样本均值之间的差异是否统计上显著。在回归分析中，F检验被用来检验模型中所有自变量的联合显著性。

F分布的形状通常是偏斜的，且只有正值。随着自由度的增加，F分布逐渐接近正态分布。F分布的均值和方差取决于自由度的大小。

总之，F分布是一种用于比较两个样本方差的分布，它在统计学中被广泛应用于方差分析和回归分析。

Friedman检验是一种非参数统计方法，

Friedman检验是一种非参数统计方法，它用于比较多个相关样本的差异。这种检验特别适用于处理重复测量或匹配组的情况，因此在心理学、医学和社会科学等领域中非常受欢迎。

Friedman检验与F分布的关系在于，Friedman检验的结果可以用来计算一个统计量，这个统计量在零假设下（即所有相关样本的总体没有差异）近似地服从F分布。具体来说，Friedman检验的统计量是通过比较各个相关样本的秩和来计算的，而这个统计量的分布与F分布有关。

在Friedman检验中，如果检验的结果是统计量较大，对应的p值较小（通常小于显著性水平，如0.05），那么我们拒绝原假设，认为至少有两个样本之间存在显著差异。这个统计量的分布与F分布相似，因为它涉及到两个自由度的比值，这两个自由度分别对应于组间和组内的变异。

总结来说，Friedman检验的统计量在原假设下近似地服从F分布，这使得我们可以使用F分布的特性来确定检验的显著性。

Friedman检验中提到的"F分布"和之前提到的F分布不是同一个东西，

Friedman检验的"F分布"：
- Friedman检验是一种非参数统计方法，用于比较多个相关样本的均值是否存在显著差异。
- 在Friedman检验中，统计量（通常是卡方统计量）的分布被用作检验的基础，这个统计量在原假设下近似服从卡方分布，而不是直接服从F分布。
- Friedman检验的结果通常需要查表或使用软件来确定p值，这个p值与卡方分布的临界值有关。
传统的F分布：
- F分布是由两个独立的卡方分布变量各除以其自由度后的比值构成的，是一种非对称分布，且位置不可互换。
- F分布广泛应用于方差分析（ANOVA）、回归方程的显著性检验等，它描述了两个样本方差的比率分布。
- F分布的统计量（F值）是通过比较两个样本方差（或方差的估计）来计算的，这个F值的分布与F分布有关。

简而言之，Friedman检验中的"F分布"是指检验统计量在原假设下近似服从的分布，而传统的F分布是指在方差分析和回归分析中使用的统计量的分布。两者虽然都与统计量的分布有关，但它们描述的是不同类型的统计检验和不同的应用场景。Friedman检验的统计量近似服从卡方分布，而传统的F分布是描述两个方差比值的分布。