【机器学习笔记 Ⅲ】4 特征选择

特征选择(Feature Selection)系统指南

特征选择是机器学习中优化模型性能的关键步骤,通过筛选最相关、信息量最大的特征,提高模型精度、降低过拟合风险并加速训练。以下是完整的特征选择方法论:


1. 特征选择的核心目标
  • 提升模型性能:去除噪声和冗余特征,增强泛化能力。
  • 降低计算成本:减少训练和预测时间。
  • 增强可解释性:简化模型,便于业务理解。

2. 特征选择方法分类
(1) 过滤法(Filter Methods)

原理 :基于统计指标评估特征与目标的相关性,独立于模型。
优点 :计算高效,适合高维数据。
常用技术

  • 数值特征

    • 皮尔逊相关系数(线性关系):

      python 复制代码
      import pandas as pd
      corr = df.corr()['target'].abs().sort_values(ascending=False)
    • 互信息(非线性关系):

      python 复制代码
      from sklearn.feature_selection import mutual_info_classif
      mi = mutual_info_classif(X, y)
  • 分类特征

    • 卡方检验(Chi-Square):

      python 复制代码
      from sklearn.feature_selection import chi2
      chi2_scores, _ = chi2(X, y)
    • ANOVA F值(方差分析):

      python 复制代码
      from sklearn.feature_selection import f_classif
      f_scores, _ = f_classif(X, y)

筛选阈值示例

python 复制代码
selected_features = corr[corr > 0.3].index.tolist()
(2) 包裹法(Wrapper Methods)

原理 :通过模型性能迭代选择特征子集。
优点 :考虑特征交互,效果通常更好。
常用技术

  • 递归特征消除(RFE)

    python 复制代码
    from sklearn.feature_selection import RFE
    from sklearn.linear_model import LogisticRegression
    rfe = RFE(estimator=LogisticRegression(), n_features_to_select=10)
    rfe.fit(X, y)
    selected_features = X.columns[rfe.support_]
  • 顺序特征选择(SFS)

    python 复制代码
    from mlxtend.feature_selection import SequentialFeatureSelector
    sfs = SequentialFeatureSelector(estimator=RandomForestClassifier(),
                                   k_features=10,
                                   forward=True)  # 前向或后向选择
    sfs.fit(X, y)
(3) 嵌入法(Embedded Methods)

原理 :模型训练过程中自动选择特征。
优点 :平衡效率与效果。
常用技术

  • L1正则化(Lasso)

    python 复制代码
    from sklearn.linear_model import Lasso
    lasso = Lasso(alpha=0.1).fit(X, y)
    selected_features = X.columns[lasso.coef_ != 0]
  • 树模型特征重要性

    python 复制代码
    from sklearn.ensemble import RandomForestClassifier
    rf = RandomForestClassifier().fit(X, y)
    importance = rf.feature_importances_
    selected_features = X.columns[importance > np.mean(importance)]

3. 高级技术与自动化工具
(1) 特征重要性可视化
python 复制代码
import matplotlib.pyplot as plt
plt.barh(X.columns, rf.feature_importances_)
plt.title("Feature Importance")
plt.show()
(2) 自动化特征选择库
  • Feature-engine

    python 复制代码
    from feature_engine.selection import DropCorrelatedFeatures
    selector = DropCorrelatedFeatures(threshold=0.8)
    X_train = selector.fit_transform(X_train)
  • Boruta (基于阴影特征):

    python 复制代码
    from boruta import BorutaPy
    boruta = BorutaPy(estimator=RandomForestClassifier(), n_estimators='auto', verbose=2)
    boruta.fit(X.values, y.values)
    selected_features = X.columns[boruta.support_]

4. 领域驱动的特征选择
  • 业务知识优先:例如金融风控中,人工筛选与欺诈强相关的特征(如交易频率、金额突增)。
  • 特征工程结合
    • 创建衍生特征(如"最近7天登录次数")。
    • 分箱处理(将连续年龄分为"青年/中年/老年")。

5. 验证与迭代
  • 交叉验证评估 :对比特征选择前后的模型性能(如AUC、F1)。

    python 复制代码
    from sklearn.model_selection import cross_val_score
    scores = cross_val_score(model, X_selected, y, cv=5, scoring='roc_auc')
  • 稳定性检查:多次运行特征选择,观察高频被选中的特征。


6. 常见陷阱与解决方案
问题 解决方案
数据泄漏 仅在训练集上计算统计量,避免使用测试集信息
高基数分类特征 使用目标编码或嵌入表示
特征间多重共线性 移除相关系数>0.8的特征或使用PCA降维

7. 总结与最佳实践
  1. 流程建议
    • 先过滤法快速降维 → 嵌入法优化 → 包裹法精细调优(计算资源允许时)。
  2. 关键原则
    • 少而精:优先选择10-20个高价值特征。
    • 可解释性:确保业务方理解最终特征。
  3. 工具链
    数据预处理 过滤法初筛 嵌入法优化 包裹法验证 业务审核

通过系统化的特征选择,可显著提升模型效率与效果。实际应用中需结合数据特性和业务需求灵活调整方法。

相关推荐
小博士爱吃西红柿18 小时前
GPT-Image-2-All 图像模型 API 对接
人工智能·gpt·ai作画
輕華19 小时前
LSTM实战(上篇):微博情感分析——词表构建与数据集加载
人工智能·机器学习·lstm
大江东去浪淘尽千古风流人物20 小时前
【cuVSLAM】GPU 加速、多相机、实时视觉/视觉惯性 SLAM设计优势
c++·人工智能·数码相机·ubuntu·计算机视觉·augmented reality
Elastic 中国社区官方博客1 天前
Elasticsearch:使用 Agent Builder 的 A2A 实现 - 开发者的圣诞颂歌
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
chools1 天前
【AI超级智能体】快速搞懂工具调用Tool Calling 和 MCP协议
java·人工智能·学习·ai
郝学胜-神的一滴1 天前
深度学习必学:PyTorch 神经网络参数初始化全攻略(原理 + 代码 + 选择指南)
人工智能·pytorch·python·深度学习·神经网络·机器学习
leobertlan1 天前
好玩系列:用20元实现快乐保存器
android·人工智能·算法
笨笨饿1 天前
#58_万能函数的构造方法:ReLU函数
数据结构·人工智能·stm32·单片机·硬件工程·学习方法
jr-create(•̀⌄•́)1 天前
从零开始:手动实现神经网络识别手写数字(完整代码讲解)
人工智能·深度学习·神经网络
冬奇Lab1 天前
一天一个开源项目(第78篇):MiroFish - 用群体智能引擎预测未来
人工智能·开源·资讯