逻辑回归特征重要性排序实验报告：不同特征选择方法的排序一致性验证

在逻辑回归建模中，特征重要性排序直接影响模型可解释性和特征工程策略。本实验旨在验证三种常用特征选择方法生成的排序一致性：

通过计算Kendall Tau一致性系数 ，评估不同方法排序结果的相关性，公式为：

\\tau = \\frac{C - D}{\\sqrt{(C + D + T_x)(C + D + T_y)}}

其中 $C$ 为一致对， $D$ 为不一致对， $T$ 为结值（tie）。

数据集 ：威斯康星乳腺癌数据集（569样本×30特征）
预处理：标准化处理，目标变量为二分类（恶性/良性）

一致性验证流程：

3.1 排序结果示例（前5重要特征）

特征	系数绝对值法	RFE法	随机森林法
`worst radius`	1	2	1
`mean texture`	3	1	4
`worst perimeter`	2	3	2

3.2 一致性系数（均值±标准差）

关键发现：

不一致性根源：

工程建议：

不同特征选择方法在逻辑回归特征重要性排序上呈现中度一致性（ $\\tau \\in \[0.58, 0.72\]$ ）。推荐组合使用线性与非线性方法，并通过一致性系数量化排序可靠性。未来工作可引入SHAP值进一步统一特征重要性评估框架。

附录代码：Kendall Tau计算实现

python 复制代码

from scipy.stats import kendalltau  
tau, p_value = kendalltau(  
    rank_coef,   # 系数绝对值法排序  
    rank_rfe     # RFE法排序  
)