统计1| 统计基础

统计学的大致分类

概率论：涉及随机事件的概率计算以及随机变量和概率分布的理解。概率论为推断性统计提供了理论基础。
回归分析：这是研究变量之间关系的一种统计方法，主要用于模型建立和预测。回归分析可以帮助了解一个或多个自变量（解释变量）如何影响因变量（响应变量）。
贝叶斯统计：这是一种统计方法，它在传统的频率概念基础上，引入了先验知识或信念的概念，并使用概率来表达统计推断的不确定性。
非参数统计：与假设特定分布形式（如正态分布）的参数统计方法相对，非参数统计不依赖于数据的分布。这适用于不符合常规分布假设的数据分析。
多变量统计分析：此部分涉及同时观察和分析两个以上变量之间的关系。常用方法包括主成分分析、因子分析、聚类分析等。
时间序列分析：这部分关注于随时间变化的数据序列。目的是识别数据中的趋势、季节性变化和周期性，并进行预测。

回归分析

线性回归：
- 简单线性回归：分析一个自变量和一个因变量之间的线性关系。
- 多元线性回归：分析两个或更多自变量和一个因变量之间的线性关系。
假设检验：
- 检验回归模型中的斜率是否显著不为零，以判断自变量是否对因变量有显著影响。
- 对模型中每个自变量的贡献进行评估和检验。
模型评估：
- 决定系数（R²）：衡量模型解释的变异量在总变异量中所占的比例。
- 调整R²：对决定系数的修改，考虑了自变量的数量，用于多元回归。
- 残差分析：检查模型假设是否得到满足（例如，残差的正态性、独立性和方差齐性）。
变量选择：
- 使用诸如前向选择、后向消除或逐步回归等方法选择变量。
- 检查多重共线性问题，即自变量之间的高相关性可能影响模型的解释和稳定性。
非线性回归：
- 非线性关系可能采取各种形式，如多项式、指数、对数、幂函数等。
- 模型的选择通常基于理论考虑、数据的性质或预先的数据探索分析。
- 与线性回归中的最小二乘法不同，非线性回归通常需要使用数值方法来估计模型参数，如最大似然估计或非线性最小二乘法。这些方法涉及迭代算法，例如梯度下降、牛顿-拉弗森方法等，来找到最优化参数值。
- 使用诸如残差分析、决定系数、信息准则（如AIC或BIC）等统计工具来评估非线性模型的拟合优度和选择最佳模型。
广义线性回归GLM：
- GLM推广了传统的线性回归模型，允许因变量（响应变量）具有除正态分布之外的其他分布，例如二项式、泊松或伽玛分布

假设检验

假设检验是统计学中的一种方法，用于评估一个或多个总体参数（如均值、比例或方差）的统计显著性。假设检验的目的是根据样本数据判断总体参数是否符合某个先验假设。

零假设（H₀）和备择假设（H₁）
- 零假设（H₀）：是一个没有效应、没有差异或没有关系的假设，通常作为一种默认状态。例如，两组的均值无差异或者一个治疗效果与安慰剂无差异。
- 备择假设（H₁）：与零假设相对，它是研究者希望证明的假设，表明有效应、有差异或有关系。根据研究的目的，备择假设可以是单边的或双边的。
测试统计量：
- 根据零假设构造一个测试统计量，这是一种从样本数据中计算出来的数值，用于判断零假设是否成立。不同类型的假设检验使用不同的测试统计量，如t统计量、χ²统计量、F统计量等。
显著性水平（α）：
- 显著性水平是决定零假设是否被拒绝的阈值。它代表的是犯第一类错误（错误地拒绝零假设）的概率，通常设置为0.05或0.01。
P值：
- P值是在零假设为真的条件下，观察到的测试统计量值或更极端值出现的概率。一个小的P值（通常小于显著性水平）表明在零假设为真的情况下，观察到的结果是不太可能的，从而支持拒绝零假设。
结论：
- 基于P值和显著性水平，得出结论：要么拒绝零假设，支持备择假设；要么不拒绝零假设，即没有足够的证据支持备择假设。

p表示probability概率，表示在原假设的情况下，诞生出我们观测到的数据的概率，也就是零假设与现实实际的数据之间的差异度。一只猫和一只狗验证他们的物种差异度，零假设就是没有差异，p=0就是，如果同一物种，则不会出现一只猫和一只狗的现实，因此选择备择假设。

假设检验的类型

假设检验有许多不同的类型，每种类型适用于特定的数据特征和研究问题。

t检验：
- 单样本t检验（One-Sample t-Test）：这种检验用于比较单个样本的均值与一个已知或假定的总体均值。例如，如果你想知道某一班级的平均考试成绩是否显著不同于全国平均成绩，你可以使用单样本t检验。其零假设是样本均值等于总体均值，备择假设是样本均值不等于总体均值（也可以是单边检验，即大于或小于总体均值）。
- 独立样本t检验（Independent-Samples t-Test）：这种检验用于比较两个独立样本群体的均值差异。例如，比较两个不同班级或治疗组和对照组的平均成绩或效果。零假设是两个群体的均值没有差异，而备择假设是存在显著差异。这种检验还需考虑两个样本的方差是否相等（方差齐性），这会影响到检验的类型（如Welch's t-test当方差不等时使用）。
- 配对样本t检验（Paired-Samples t-Test）：这种检验用于比较来自相同对象的两组数据。例如，测量同一组受试者在实验前后的变化，或者比较双胞胎中的一对在某个特征上的差异。零假设是两次测量的均值差异为零，备择假设是存在显著差异。配对样本t检验考虑的是差值的均值，因此适用于相关或配对设计。
ANOVA（方差分析）：
- 用于比较三个或更多组的均值差异。如果ANOVA显示存在显著差异，通常需要进行后续的多重比较测试来确定具体哪些组之间存在差异。
χ²（卡方）检验:
1. 卡方拟合度检验：用于检查一组观察频率是否符合预期频率。
2. 卡方独立性检验：用于检查两个分类变量是否独立。
Z检验：
1. 用于比较样本均值与总体均值或比较两个样本均值，但通常适用于大样本（n>30）和已知总体方差的情况。
F检验：
- 用于比较两个样本方差是否有显著差异，通常用在两个正态分布的样本上，以判断它们是否具有相同的方差。

很多的检验都需要对数据是否服从正态分布进行验证：

Shapiro-Wilk 测试：这是一个流行的检验，用于小样本数据（通常n < 50）。如果p值小于显著性水平（如0.05），则拒绝正态性假设。
Kolmogorov-Smirnov 测试：这是一个适用于任何样本大小的检验，但它对于小样本可能不够敏感。
Anderson-Darling 测试：这个测试对尾部的敏感度比Kolmogorov-Smirnov测试更高，适用于检验样本是否来自正态分布。

中心极限定理

中心极限定理（Central Limit Theorem, CLT）是概率论和统计学中的一个基本定理，它阐述了独立随机变量和的分布在一定条件下趋近于正态分布的性质。这个定理对于实际数据分析尤为重要，因为它为基于样本均值的推断提供了理论基础，即使原始数据不遵循正态分布。

假设你有一个大型总体，如一个城市的所有居民的年龄。这个总体的分布可能是任何形状的，并且不一定是正态的。根据中心极限定理，如果你从这个总体中抽取很多个样本（每个样本包含30个或更多的居民），那么这些样本的年龄均值将形成一个近似正态分布的分布。

虽然中心极限定理非常强大，但它并不适用于所有类型的统计问题。例如，它不适用于极端值（如最大值或最小值）的分布，也不适用于需要考虑总体分布特定形状的情况（例如，使用中位数而不是均值时）。此外，对于某些极端分布（如具有重尾或偏斜特别严重的分布），需要更大的样本量才能使中心极限定理有效。