【每天一个知识点】Dip 检验（Dip test）

dundunmm2025-05-16 8:52

Dip 检验（Dip test）是一种用于检验一维数据分布是否为单峰（unimodal）的非参数统计方法。该检验由 Hartigan 和 Hartigan 于 1985 年提出，通常用于探索性数据分析中，以判断数据是否仅具有一个峰值结构（即一个"主要集中区域"），或可能存在多个峰（多模态分布）。

一、基本思想

Dip 检验的核心思想是衡量一个样本分布与最接近它的单峰分布 之间的"最大偏差"。这个偏差称为 Dip 值（Dip statistic）。

Dip 值越小，表示样本更接近于某个单峰分布；
Dip 值越大，表示样本更偏离单峰，可能存在多个峰值（即多模态）；
通过计算 Dip 值对应的 p 值（Dip-p 值），可以判断该偏差在统计上是否显著。

二、检验步骤简述

输入数据：一维实数向量（如某特征值、投影值等）；
计算样本的经验分布函数（EDF）；
拟合最接近的单峰分布（即单峰包络）；
计算样本 EDF 与该单峰分布之间的最大偏差（Dip 值）；
通过重抽样（例如 Monte Carlo）获得 Dip 值的 p 值；
根据显著性水平（如 α=0.05）判断是否拒绝单峰性假设。

三、输出结果

Dip 值（float）：样本分布与最接近单峰分布之间的最大偏差；
p 值（Dip-p value）：表示该 Dip 值在单峰假设下出现的概率；
- 若 p 值 < α（如 0.05），则认为数据不服从单峰分布，可能为多峰；
- 若 p 值较大，则支持单峰分布假设。

四、常见应用场景

聚类分析中的验证工具（如 DipDECK 中用于判断两个聚类是否应合并）；
异常检测：识别是否存在多个模式或集群；
密度估计评估：判断估计分布是否有多个模式；
降维或投影后的结构验证。

五、优点与局限

优点	局限
非参数，无需假设分布类型	只能用于一维数据
对小样本和非正态分布较稳健	在样本不平衡或噪声多时可能不稳定
对分布形态敏感，适合模式识别	多维数据需投影后再使用