【Python机器学习】自动化特征选择——基于模型的特征选择

基于模型的特征选择使用一个监督机器学习模型来判断每个特征的重要性,并且仅保留最重要的特征。用于特征学习的监督模型不需要与用于最终建模的模型相同。特征选择模型需要为每个特征提供某种重要性度量,以便用这个度量对特征进行排序。决策树和基于决策树的模型提供了feature_importances_属性,可以直接编码每个特征的重要性。线性模型系数的绝对值也可以用于表示特征的重要性。之前学到过,L1惩罚的线性模型学到的是稀疏系数,它只用到了特征的一个很小的子集。这可以被视为模型本身的一种特征选择形式,但也可以用作另一个模型选择特征的预处理步骤。

与单变量选择不同,基于模型的选择同时考虑所有特征,因此可以获取交互项(如果模型能获取他们的话),想要使用基于模型的特征选择,需要使用SelectFromModel变换器:

python 复制代码
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier

select=SelectFromModel(
    RandomForestClassifier(n_estimators=100,random_state=42),threshold='median'
)

SelectFromModel类选出重要性度量(由监督模型提供)大于给定阈值的所有特征。为了得到可以与单变量特征选择进行对比的结果,我们使用中位数作为阈值,这样就可以选择一半特征。我们用包含100颗树的随机森林分类器来计算特征重要性。这是一个相当复杂的模型,也比单变量测试要强大得多。下面,实际拟合模型:

python 复制代码
select.fit(X_train,y_train)
X_train_l1=select.transform(X_train)
print('训练集shape:{}'.format(X_train.shape))
print('训练集l1_shape:{}'.format(X_train_l1.shape))

可视化展示:

python 复制代码
mask=select.get_support()
plt.matshow(mask.reshape(1,-1),cmap='gray_r')
plt.xlabel('Sample index')
plt.show()

这次,除了两个原始特征,其他原始特征都被选中。由于我们指定了40个特征,所以也选择了一些噪声特征。

来看一下性能:

从结果上看,利用更好的特征选择,性能也得到了提高。

相关推荐
zhangkai__6 分钟前
SpringCloud Feign 报错 Request method ‘POST‘ not supported 的解决办法
python·spring·spring cloud
心易行者9 分钟前
基于自然语言处理的智能客服系统构建:中文AI的实践智慧
人工智能·深度学习·transformer
Czi.10 分钟前
Build a Large Language Model (From Scratch)附录C(gpt-4o翻译版)
人工智能·语言模型·自然语言处理
腾讯数据架构师12 分钟前
cube-studio 开源一站式云原生机器学习/深度学习/大模型训练推理平台介绍
机器学习·云原生·开源
Cpdr21 分钟前
pytorch自适应的调整特征图大小
pytorch·python·深度学习
写代码的中青年24 分钟前
Semantic Kernel:微软大模型开发框架——LangChain 替代
人工智能·python·microsoft·langchain·大模型·llm
悸尢27 分钟前
二维舵机颜色追踪,使用树莓派+opencv+usb摄像头+两个舵机实现颜色追踪,采用pid调控
人工智能·opencv·计算机视觉
深圳市青牛科技实业有限公司 小芋圆28 分钟前
什么是空气电容器?
人工智能·单片机·嵌入式硬件·语音识别·小家电
JokerSZ.30 分钟前
【Leetcode 每日一题】268. 丢失的数字
数据结构·算法·leetcode
神经蛙199634 分钟前
「豆包Marscode体验官」- 智能编程的新纪元
人工智能