逻辑回归特征重要性排序实验报告:不同特征选择方法的排序一致性验证

逻辑回归特征重要性排序实验报告:不同特征选择方法的排序一致性验证


1. 引言

在逻辑回归建模中,特征重要性排序直接影响模型可解释性和特征工程策略。本实验旨在验证三种常用特征选择方法生成的排序一致性:

  • 系数绝对值法:基于逻辑回归系数\|\\beta_j\|
  • 递归特征消除法:通过迭代剔除特征
  • 基于树的方法:使用随机森林的Gini重要性

通过计算Kendall Tau一致性系数 ,评估不同方法排序结果的相关性,公式为:

\\tau = \\frac{C - D}{\\sqrt{(C + D + T_x)(C + D + T_y)}}

其中C为一致对,D为不一致对,T为结值(tie)。


2. 实验设计

数据集 :威斯康星乳腺癌数据集(569样本×30特征)
预处理:标准化处理,目标变量为二分类(恶性/良性)

特征选择方法 参数设置
系数绝对值法 逻辑回归正则化强度C=1.0
递归特征消除(RFE) 保留10个特征,步长=1
随机森林Gini重要性 树数量=100,最大深度=5

一致性验证流程

  1. 分别用三种方法生成特征重要性排序
  2. 两两计算Kendall Tau系数(共3组对比)
  3. 重复实验50次,取系数均值

3. 结果分析

3.1 排序结果示例(前5重要特征)

特征 系数绝对值法 RFE法 随机森林法
worst radius 1 2 1
mean texture 3 1 4
worst perimeter 2 3 2

3.2 一致性系数(均值±标准差)

方法对比 Kendall Tau \\tau
系数绝对值法 vs RFE 0.72 \\pm 0.08
系数绝对值法 vs 随机森林 0.65 \\pm 0.11
RFE vs 随机森林 0.58 \\pm 0.09

关键发现

  1. 系数绝对值法与RFE一致性最高(\\tau \> 0.7),因二者均基于线性模型结构
  2. 随机森林与其他方法一致性较低,反映非线性特征交互的影响
  3. 特征worst radius在三种方法中均排名前2,表明其稳定重要性

4. 讨论

不一致性根源

  • 方法原理差异:线性方法(系数/RFE)与树方法对特征交互的敏感性不同
  • 特征相关性 :高相关特征组(如radius/perimeter)在排序中易发生置换
  • 正则化影响:L2正则化压缩系数,导致\\beta_j绝对值排序偏移

工程建议

  1. 优先使用系数绝对值法获取可解释性排序
  2. 当特征相关性高时,采用RFE避免冗余特征干扰
  3. 需验证非线性关系时,随机森林可作为补充视角

5. 结论

不同特征选择方法在逻辑回归特征重要性排序上呈现中度一致性(\\tau \\in \[0.58, 0.72\])。推荐组合使用线性与非线性方法,并通过一致性系数量化排序可靠性。未来工作可引入SHAP值进一步统一特征重要性评估框架。

附录代码:Kendall Tau计算实现

python 复制代码
from scipy.stats import kendalltau  
tau, p_value = kendalltau(  
    rank_coef,   # 系数绝对值法排序  
    rank_rfe     # RFE法排序  
)  
相关推荐
Mr数据杨8 小时前
加州房价中位数预测在房地产估值中的应用
机器学习·数据分析·kaggle
xiaotao1318 小时前
02-机器学习基础: 监督学习——线性回归
学习·机器学习·线性回归
曦樂~8 小时前
【机器学习】概述
人工智能·机器学习
DeniuHe8 小时前
机器学习模型中的偏置项(bias / 截距项)到底有什么用?
人工智能·机器学习
白羊by9 小时前
YOLOv1~v11 全版本核心演进总览
深度学习·算法·yolo
STLearner10 小时前
WSDM 2026 | 时间序列(Time Series)论文总结【预测,表示学习,因果】
大数据·论文阅读·人工智能·深度学习·学习·机器学习·数据挖掘
STLearner10 小时前
WSDM 2026 | 时空数据(Spatial Temporal)论文总结
人工智能·python·深度学习·机器学习·数据挖掘·智慧城市·推荐算法
墨尘笔尖10 小时前
最大最小值降采样算法的优化
c++·算法
龙腾AI白云13 小时前
智能体如何配知识库?
人工智能·机器学习·数据挖掘
white-persist13 小时前
【vulhub shiro 漏洞复现】vulhub shiro CVE-2016-4437 Shiro反序列化漏洞复现详细分析解释
运维·服务器·网络·python·算法·安全·web安全