在分类任务中，显著性分析

在二分类任务中，显著性分析主要用于验证模型性能差异、特征重要性或分类变量关联性。以下是关键分析方法及Python实现代码：

一、模型性能差异的显著性分析

AUC差异检验（Delong Test）
用于比较两个模型的ROC-AUC值是否显著不同，基于Mann-Whitney U统计量实现：

python 复制代码

import numpy as np
from scipy import stats

class DelongTest:
    def __init__(self, preds1, preds2, label, alpha=0.05):
        self.preds1 = preds1
        self.preds2 = preds2
        self.label = label
        self.alpha = alpha
        self._compute_z_p()

    def _compute_z_p(self):
        X_A = [p for p, a in zip(self.preds1, self.label) if a]
        Y_A = [p for p, a in zip(self.preds1, self.label) if not a]
        X_B = [p for p, a in zip(self.preds2, self.label) if a]
        Y_B = [p for p, a in zip(self.preds2, self.label) if not a]

        auc_A = self._auc(X_A, Y_A)
        auc_B = self._auc(X_B, Y_B)
        
        # 计算协方差矩阵和Z值
        var_A = ...  # 具体协方差计算见完整代码
        z = (auc_A - auc_B) / np.sqrt(var_A + var_B - 2*covar_AB)
        p = stats.norm.sf(abs(z)) * 2
        print(f"Z={z:.3f}, p={p:.5f}")

# 示例用法
preds_A = [0.8, 0.7, 0.6, 0.5, 0.4]
preds_B = [0.9, 0.6, 0.7, 0.5, 0.3]
labels = [1, 1, 0, 0, 1]
DelongTest(preds_A, preds_B, labels)

Bootstrap重抽样法
通过重采样生成性能指标（如准确率）的置信区间，判断差异显著性：

python 复制代码

from sklearn.utils import resample

def bootstrap_ci(y_true, y_pred, metric, n_iter=1000, alpha=0.95):
    scores = []
    for _ in range(n_iter):
        idx = resample(np.arange(len(y_true)))
        score = metric(y_true[idx], y_pred[idx])
        scores.append(score)
    lower = np.percentile(scores, (1-alpha)*50)
    upper = np.percentile(scores, 100 - (1-alpha)*50)
    return (lower, upper)

# 示例：计算准确率的95%置信区间
from sklearn.metrics import accuracy_score
ci = bootstrap_ci(y_test, y_pred, accuracy_score)
print(f"Accuracy置信区间：{ci}")

二、特征与分类结果的关联性分析

卡方检验（分类变量）
验证分类特征与目标变量的独立性：

python 复制代码

from scipy.stats import chi2_contingency

# 构建列联表
contingency_table = pd.crosstab(df['feature'], df['target'])
chi2, p, dof, expected = chi2_contingency(contingency_table)
print(f"卡方值={chi2:.3f}, p={p:.5f}")

t检验（连续变量）
比较正负样本在连续特征上的均值差异：

python 复制代码

from scipy.stats import ttest_ind

pos_samples = df[df['target'] == 1]['feature']
neg_samples = df[df['target'] == 0]['feature']
t_stat, p_value = ttest_ind(pos_samples, neg_samples)
print(f"t统计量={t_stat:.3f}, p={p_value:.5f}")

三、分类器预测一致性检验（McNemar Test）

验证两个分类器的错误率是否显著不同：

python 复制代码

from statsmodels.stats.contingency_tables import mcnemar

# 构建混淆矩阵
b = ((model1_pred != y_test) & (model2_pred == y_test)).sum()
c = ((model1_pred == y_test) & (model2_pred != y_test)).sum()
table = [[b + c, b], [c, 0]]
result = mcnemar(table, exact=False)
print(f"McNemar统计量={result.statistic:.3f}, p={result.pvalue:.5f}")

四、参数显著性分析（Logistic回归）

评估特征在模型中的显著性：

python 复制代码

import statsmodels.api as sm

# 添加截距项并拟合模型
X = sm.add_constant(X_train)
model = sm.Logit(y_train, X).fit()
# 输出参数置信区间和p值
print(model.summary())
print(model.conf_int(alpha=0.05))  # 95%置信区间

五、关键注意事项

方法选择：

• 小样本优先使用精确检验（如Fisher精确检验）

• 多重比较需校正（Bonferroni或FDR）
可视化验证：

• 绘制Bootstrap抽样分布直方图

• 可视化混淆矩阵或ROC曲线对比
代码依赖：

• 主要库：scipy、statsmodels、sklearn

• 完整实现需处理数据预处理和模型训练步骤

以上方法可满足二分类任务中模型性能、特征关联性和参数显著性的分析需求。具体实现时需根据数据分布和样本量选择合适方法。