机器学习系列13:通过随机森林获取特征重要性

我们已经知道通过 L1 正则化和 SBS 算法可以用来做特征选择。

我们还可以通过随机森林从数据集中选择相关的特征。随机森林里面包含了多棵决策树,我们可以通过计算特征在每棵决策树决策过程中所产生的的信息增益平均值来衡量该特征的重要性。

你可能需要参考:《机器学习系列06:决策树

这种方法无需对特征做归一化或者标准化预处理,也不假设数据集是否线性可分。

以红酒数据集为例。我们可以直接通过 feature_importances_ 属性获取每个特征的重要性,所有特征重要性之和为 1.0。

我们可以更直观地可视化观察一下。

可以看到上面随机森林选出的前 3 个特征最重要的特征中有 2 也出现在了之前在

机器学习系列12:减少过拟合------降维(特征选择)》中使用 SFS 算法选择的 3 个最重要的特征中。

我们可以通过 scikit-learn 提供的 SelectFromModel 来通过 threshold 参数设定一个阈值 ,选择满足这个贡献度阈值的特征出来。

可以看到选择了 5 个特征,现在我们就用这 5 个特征拟合一下 kNN 算法。

可以对比一下在用 SFS 算法选择的 3 个特征拟合的 kNN 算法。

选择 5 个特征时,模型在训练集和测试集上的表现和选择全部特征的表现相当!

相关推荐
m0_380167142 分钟前
面向开发者的Top10加密货币数据API(2026年最新)
大数据·人工智能·区块链
yyxx4121234 分钟前
上海企业如何选择专业的钉钉服务商
java·大数据·人工智能·钉钉
未来和明天4 分钟前
领嵌iLeadE-588边缘计算盒子,兼容Modbus、DLT645、OPC UA等多种行业协议,支持第三方平台对接。
人工智能·边缘计算
幂律智能13 分钟前
盖章是合同的开始,那最后一步是什么
人工智能
大山佬14 分钟前
RTOS 内存管理:从静态分配到堆碎片治理的工程实践
人工智能
chase_my_dream16 分钟前
Cartographer详细讲解
c++·人工智能·自动驾驶
AIHR数智引擎20 分钟前
KPI物理失效:AI原生组织的效能重构与技能度量
人工智能·经验分享·职场和发展·重构·ai-native·aihr
β添砖java25 分钟前
深度学习(22)网络中的网络NiN
人工智能·深度学习
昵称好难啊31 分钟前
7.OpenClaw源码解析——可靠消息投递
人工智能·llm·agent
星辰AI打工人36 分钟前
手搓一个AI心理测评工具:FastAPI + DeepSeek + Streamlit 实战
人工智能