Shapiro-Wilk检验：原理、应用与实现

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

1 Shapiro-Wilk检验的基本概念

Shapiro-Wilk检验 （Shapiro-Wilk test）是一种用于评估样本数据是否来自正态分布 的统计方法。该方法由Samuel Shapiro和Martin Wilk于1965年提出，被认为是检验正态性最有效的方法之一 ，尤其适用于小样本数据（n ≤ 50）。

1.1 历史背景与发展

Shapiro-Wilk检验由Samuel Shapiro和Martin Wilk于1965年在Biometrika 期刊上发表，论文题为《An Analysis of Variance Test for Normality (Complete Samples)》。该检验最初设计用于完全样本 （无删失数据）且样本量较小（3 ≤ n ≤ 50）的情况。

随着算法的改进和计算能力的提升，Shapiro-Wilk检验的应用范围已扩展至更大样本量（最高可达n = 5000）。Patrick Royston在1982年和1995年对该检验进行了重要改进，提出了适用于大样本量的近似算法。

1.2 核心思想与基本原理

Shapiro-Wilk检验的核心思想 是评估样本数据与理想正态分布数据的相似性 。其基本逻辑是：如果样本来自正态分布，那么数据的顺序统计量 应当与正态分布的期望顺序统计量高度相关。

检验的零假设（H₀） 和备择假设（H₁） 分别为：

H₀：样本来自正态分布的总体
H₁：样本不来自正态分布的总体

检验通过计算W统计量来评估正态性，W值接近1表示数据越可能服从正态分布，而显著小于1的值则表明数据偏离正态性。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

往期文章推荐:

2 数学原理与算法实现

2.1 数学公式与计算步骤

Shapiro-Wilk检验的统计量计算公式为：

W = ( ∑ i = 1 n a i x ( i ) ) 2 ∑ i = 1 n ( x i − x ˉ ) 2 W = \frac{ \left( \sum_{i=1}^{n} a_i x_{(i)} \right)^2 }{ \sum_{i=1}^{n} (x_i - \bar{x})^2 } W=∑i=1n(xi−xˉ)2(∑i=1naix(i))2

其中：

x ( i ) x_{(i)} x(i) 是样本的第i个顺序统计量（即从小到大排序后的第i个观测值）
x ˉ \bar{x} xˉ 是样本均值
a i a_i ai 是常数系数，基于正态分布顺序统计量的期望值和协方差矩阵计算得出

系数 a i a_i ai的计算较为复杂，需要借助正态分布顺序统计量的期望值和协方差矩阵。Shapiro和Wilk在其原始论文中提供了样本量在2-50范围内的系数值表。

2.2 算法演进与改进

为了克服原始算法计算复杂的问题，特别是对于大样本量，Patrick Royston提出了近似算法：

系数近似 ：系数 a i a_i ai可通过公式 c i = m i T V − 1 ( V − 1 m i ) T c_i = \sqrt{m_i^T V^{-1} (V^{-1} m_i)^T} ci=miTV−1(V−1mi)T 近似计算，其中 m i m_i mi是标准正态分布顺序统计量的期望值向量， V V V是相应的协方差矩阵。
W统计量转换 ：将W统计量转换为标准正态偏差，以便计算p值。转换公式根据样本大小有所不同：

对于4 ≤ n ≤ 11： w = ln ⁡ ( 1 − W ) w = \ln(1 - W) w=ln(1−W)
对于12 ≤ n ≤ 2000： w = ln ⁡ ( 1 − W W ) w = \ln(\frac{1 - W}{W}) w=ln(W1−W)

p值计算 ：转换后的 w w w值可进一步转换为标准正态分布的Z值，从而计算p值。

这些改进使得Shapiro-Wilk检验能够有效地应用于更大样本量的情况，同时保持了检验的功效。

3 检验结果的解释与注意事项

3.1 结果解释

Shapiro-Wilk检验的结果通常包括W统计量 和p值：

W统计量：取值范围为0到1，值越接近1，表明数据越可能服从正态分布。
p值：用于判断是否拒绝零假设的统计显著性。

解释标准通常为：

如果 p值 ≥ 显著性水平（通常为0.05） ，则不能拒绝零假设，认为样本来自正态分布的总体。
如果 p值 < 显著性水平（通常为0.05） ，则拒绝零假设，认为样本不来自正态分布的总体。

3.2 适用场景与优势

Shapiro-Wilk检验在以下场景中特别有用：

小样本数据 ：相较于其他正态性检验（如Kolmogorov-Smirnov检验），Shapiro-Wilk检验在小样本情况下的功效更高。
需要高检验功效时 ：对于多种非正态分布形式，Shapiro-Wilk检验都表现出较高的检测能力。
科学研究与质量控制：广泛应用于需要数据满足正态假设的领域，如心理学、生物学和工业质量控制。

3.3 局限性与注意事项

使用Shapiro-Wilk检验时应注意以下几点：

样本量限制 ：虽然改进算法支持更大样本量，但检验在极小样本（n < 3）和极大样本（n > 5000） 下的性能可能受限。
对异常值敏感 ：由于基于顺序统计量，Shapiro-Wilk检验对异常值较为敏感。
多重检验问题 ：当对多个变量进行检验时，可能需要校正显著性水平（如Bonferroni校正）以避免第一类错误膨胀。
统计显著性 vs 实际重要性 ：在大样本量 下，即使数据对正态分布的偏离很小且实际影响不大，检验也可能产生统计上显著 的结果（即很小的p值）。因此，建议结合图形工具 （如Q-Q图、直方图）和效应大小综合评估正态性。

4 Python实现与示例应用

4.1 Python实现方法

在Python中，可以使用SciPy库 的shapiro()函数轻松进行Shapiro-Wilk检验。SciPy的实现基于Royston的算法，支持样本量在3到5000之间的数据。

python 复制代码

import numpy as np
from scipy import stats
import matplotlib.pyplot as plt

# 设置中文字体和负号显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 生成示例数据 - 正态分布数据
np.random.seed(42)
normal_data = np.random.normal(loc=50, scale=15, size=100)

# 生成示例数据 - 均匀分布数据（非正态）
uniform_data = np.random.uniform(low=0, high=100, size=100)

# 生成示例数据 - 对数正态分布数据（非正态）
lognormal_data = np.random.lognormal(mean=3, sigma=0.4, size=100)

def perform_shapiro_test(data, data_name):
  """执行Shapiro-Wilk检验并打印结果"""
  statistic, p_value = stats.shapiro(data)

  print(f"\n{data_name}的Shapiro-Wilk检验结果:")
  print(f"W统计量 = {statistic:.6f}")
  print(f"p值 = {p_value:.6f}")

  alpha = 0.05
  if p_value > alpha:
    print(f"结论: 无法拒绝零假设 (p > {alpha})，{data_name}可能服从正态分布")
  else:
    print(f"结论: 拒绝零假设 (p < {alpha})，{data_name}不服从正态分布")

  return statistic, p_value

# 对三种数据集进行检验
perform_shapiro_test(normal_data, "正态分布数据")
perform_shapiro_test(uniform_data, "均匀分布数据")
perform_shapiro_test(lognormal_data, "对数正态分布数据")

4.3 实际应用案例

Shapiro-Wilk检验在数据分析和机器学习中有多种实际应用：

4.3.1 数据预处理检查

在建立线性回归模型等机器学习模型前，检查残差的正态性：

python 复制代码

# 线性回归残差的正态性检查示例
from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression

# 生成回归数据集
X, y = make_regression(n_samples=100, n_features=1, noise=20, random_state=42)

# 拟合线性回归模型
model = LinearRegression()
model.fit(X, y)
y_pred = model.predict(X)

# 计算残差
residuals = y - y_pred

# 检查残差的正态性
statistic, p_value = stats.shapiro(residuals)

print(f"\n回归残差的Shapiro-Wilk检验结果:")
print(f"W统计量 = {statistic:.6f}")
print(f"p值 = {p_value:.6f}")

alpha = 0.05
if p_value > alpha:
  print("结论: 残差服从正态分布，满足线性回归的正态性假设")
else:
  print("结论: 残差不服从正态分布，可能需要考虑变换或因变量或使用其他模型")

5 学术引用与原始论文信息

5.1 原始论文出处

Shapiro-Wilk检验的原始论文由Samuel Shapiro和Martin Wilk发表于1965年：

标题：An Analysis of Variance Test for Normality (Complete Samples)
作者：Shapiro, S. S., & Wilk, M. B.

这篇论文是统计学领域的经典文献，至今已被引用数万次，奠定了小样本正态性检验的基础。

结论

Shapiro-Wilk检验是评估数据正态性最有效的统计方法之一，尤其适用于小样本情况。通过计算样本顺序统计量与正态分布期望顺序统计量之间的相关性，该检验能够灵敏地检测数据对正态分布的偏离。

在实际应用中，Shapiro-Wilk检验应作为综合评估正态性工具包的一部分 ，结合图形方法 （如直方图、Q-Q图）和领域知识一起使用。对于大样本数据，即使轻微的偏离也可能导致统计上显著的结果，但这并不意味着偏离具有实际重要性。

在Python中，使用SciPy库的shapiro()函数可以轻松实现Shapiro-Wilk检验，结合Matplotlib等可视化工具，可以全面评估数据的分布特性，为统计分析和方法选择提供科学依据。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！