【Python机器学习】自动化特征选择——迭代特征选择

在单变量测试中,没有使用模型;在基于模型的选择中,使用单个模型来选择特征。而在迭代特征选择中,将会构造一系列模型,每个模型都使用不同数量的特征。有两种基本方法:

1、开始时没有特征,然后逐个添加特征,知道满足某个条件终止;

2、从所有特征开始,然后逐个删除特征,知道满足某个条件终止。

由于构造了一系列模型,所以这些方法的计算成本要比单变量统计和基于模型的特征选择要更高。其中一种特殊方法就是递归特征消除,它从所有特征开始构建模型,并根据模型舍弃最不重要的特征,然后使用除被舍弃特征之外的所有特征来构建一个新模型,如此继续,知道仅剩下预设数量的特征。为了让这种方法能够运行,用于选择的模型需要提供某种确定特征重要性的方法,正如基于模型的选择所做的那样。

下面使用一个随机森林模型:

python 复制代码
select = RFE(RandomForestClassifier(n_estimators=100,random_state=42),n_features_to_select=40)
select.fit(X_train,y_train)
mask=select.get_support()

plt.matshow(mask.reshape(1,-1),cmap='gray_r')
plt.xlabel('Sample index')
plt.show()

与单变量选择和基于模型的特征选择相比,迭代特征选择的结果更好,但仍然露掉了一个特征。而且运行代码所需的时间也长得多,因为对一个随机森林模型训练了40次,每运行一次删除一个特征。

下面,测试一下使用RFE做特征选择时Logistic回归模型的精度

python 复制代码
X_train_rfe=select.transform(X_train)
X_test_rfe=select.transform(X_test)
score=LogisticRegression().fit(X_train_rfe,y_train).score(X_test_rfe,y_test)
print(score)

我们还可以利用在RFE内使用的模型来进行预测。这仅使用被选中的特征集:

python 复制代码
print("test score:{}".format(select.score(X_test,y_test)))
相关推荐
web135085886358 分钟前
Python毕业设计选题:基于python的白酒数据推荐系统_django+hive
python·django·课程设计
山山而川粤1 小时前
母婴用品系统|Java|SSM|JSP|
java·开发语言·后端·学习·mysql
nn_301 小时前
利用 deepin-IDE 的 AI 能力,我实现了文件加密扩展
ide·人工智能
沐雨风栉1 小时前
Windows电脑部署SD 3.5结合内网穿透随时随地生成高质量AI图像
人工智能·电脑
mazhafener1232 小时前
5G/4G工业边缘网关 边缘计算 硬核配置强算力
人工智能·5g·边缘计算
云空2 小时前
《解锁 Python 数据分析的强大力量》
python·数据挖掘·数据分析
百家方案3 小时前
「下载」京东数科-数字孪生智慧园区解决方案:打通园区数据、融合园区业务、集成园区服务、共建园区生态,实现真实与数字孪生园区
人工智能·云计算·智慧园区·数智化园区
MUTA️3 小时前
专业版pycharm与服务器连接
人工智能·python·深度学习·计算机视觉·pycharm
xuanfengwuxiang3 小时前
安卓帧率获取
android·python·测试工具·adb·性能优化·pycharm
m0_748240443 小时前
《通义千问AI落地—中》:前端实现
前端·人工智能·状态模式