机器学习系列13:通过随机森林获取特征重要性

我们已经知道通过 L1 正则化和 SBS 算法可以用来做特征选择。

我们还可以通过随机森林从数据集中选择相关的特征。随机森林里面包含了多棵决策树,我们可以通过计算特征在每棵决策树决策过程中所产生的的信息增益平均值来衡量该特征的重要性。

你可能需要参考:《机器学习系列06:决策树

这种方法无需对特征做归一化或者标准化预处理,也不假设数据集是否线性可分。

以红酒数据集为例。我们可以直接通过 feature_importances_ 属性获取每个特征的重要性,所有特征重要性之和为 1.0。

我们可以更直观地可视化观察一下。

可以看到上面随机森林选出的前 3 个特征最重要的特征中有 2 也出现在了之前在

机器学习系列12:减少过拟合------降维(特征选择)》中使用 SFS 算法选择的 3 个最重要的特征中。

我们可以通过 scikit-learn 提供的 SelectFromModel 来通过 threshold 参数设定一个阈值 ,选择满足这个贡献度阈值的特征出来。

可以看到选择了 5 个特征,现在我们就用这 5 个特征拟合一下 kNN 算法。

可以对比一下在用 SFS 算法选择的 3 个特征拟合的 kNN 算法。

选择 5 个特征时,模型在训练集和测试集上的表现和选择全部特征的表现相当!

相关推荐
艾思科蓝 AiScholar21 分钟前
SCI期刊推荐 | 免版面费 | 计算机领域:信息系统、软件工程、自动化和控制
运维·人工智能·深度学习·信息可视化·自然语言处理·自动化·软件工程
东坡肘子37 分钟前
期待与失望的循环:苹果的 AI 困境与韧性 | 肘子的 Swift 周报 #074
人工智能·swiftui·swift
大囚长37 分钟前
prompt大师高效提示词解析
人工智能·prompt
大囚长39 分钟前
prompt样例库推荐
人工智能·prompt
春末的南方城市41 分钟前
南开提出1Prompt1Story,无需训练,可通过单个连接提示实现一致的文本到图像生成。
人工智能·计算机视觉·语言模型·自然语言处理·aigc
孤寂大仙v43 分钟前
蓝耘智算携手通义万相 2.1,文生图技术变革解析
人工智能·深度学习·机器学习·aigc
云边有个稻草人1 小时前
突破极限!蓝耘通义万相2.1引爆AI多模态新纪元——性能与应用全方位革新
人工智能·ai大模型·蓝耘科技·阿里万相2.1·通义万相2.1蓝耘·手把手教你图片如何生成音视频·深度学习模型优化
我感觉。1 小时前
【机器学习chp12】半监督学习(自我训练+协同训练多视角学习+生成模型+半监督SVM+基于图的半监督算法+半监督聚类)
人工智能·算法·机器学习·半监督学习
Wen.py.java1 小时前
Python深度学习零基础入门(二):电影评论情感分析
人工智能·python·深度学习
天若有情6732 小时前
【新闻资讯】IT 行业最新动向:AI 引领变革,多领域融合加速
人工智能·量子计算