机器学习系列13:通过随机森林获取特征重要性

我们已经知道通过 L1 正则化和 SBS 算法可以用来做特征选择。

我们还可以通过随机森林从数据集中选择相关的特征。随机森林里面包含了多棵决策树,我们可以通过计算特征在每棵决策树决策过程中所产生的的信息增益平均值来衡量该特征的重要性。

你可能需要参考:《机器学习系列06:决策树

这种方法无需对特征做归一化或者标准化预处理,也不假设数据集是否线性可分。

以红酒数据集为例。我们可以直接通过 feature_importances_ 属性获取每个特征的重要性,所有特征重要性之和为 1.0。

我们可以更直观地可视化观察一下。

可以看到上面随机森林选出的前 3 个特征最重要的特征中有 2 也出现在了之前在

机器学习系列12:减少过拟合------降维(特征选择)》中使用 SFS 算法选择的 3 个最重要的特征中。

我们可以通过 scikit-learn 提供的 SelectFromModel 来通过 threshold 参数设定一个阈值 ,选择满足这个贡献度阈值的特征出来。

可以看到选择了 5 个特征,现在我们就用这 5 个特征拟合一下 kNN 算法。

可以对比一下在用 SFS 算法选择的 3 个特征拟合的 kNN 算法。

选择 5 个特征时,模型在训练集和测试集上的表现和选择全部特征的表现相当!

相关推荐
可触的未来,发芽的智生17 分钟前
触摸未来2025.10.05:悟神经网络符号之伤,拥抱声音的宇宙
人工智能·python·神经网络·算法·架构
网安INF18 分钟前
【论文阅读】-《SparseFool: a few pixels make a big difference》
论文阅读·人工智能·深度学习·网络安全·黑盒攻击
yueyuebaobaoxinx19 分钟前
从工具到中枢:2025 年 AI 重构实体经济的实践图景
大数据·人工智能·重构
yueyuebaobaoxinx21 分钟前
人机共生:生成式 AI 重构内容创作的机遇与博弈
人工智能·chatgpt·重构
huluang21 分钟前
基于AI驱动的项目重构与落地实施指南
大数据·人工智能·重构
zezexihaha22 分钟前
生成式 AI 重构内容创作:从辅助工具到智能工厂
大数据·人工智能·重构
蒋星熠40 分钟前
用 CodeBuddy CLI + Prompt,从零到可运行:前后端混合管理系统的高效实战
人工智能·python·机器学习·prompt·codebuddy code·无界生成力·ai cli
Nina_7171 小时前
第一章——了解prompt以及一些基础技巧方法
人工智能·python
逻辑留白陈1 小时前
高维小样本数据处理方法全景指南:从传统机器学习到大模型(上)
人工智能·机器学习
张较瘦_1 小时前
[论文阅读] AI+教学 | 编程入门课的AI助手革命?ChatGPT的4大核心影响全解析
论文阅读·人工智能·chatgpt