机器学习-特征选择

监督的特征选择与提取以训练样本为依据,非特征的特征选择与提取从未知数据触发,需要利用只是或假定。

修斯现象说明,随着特征数量的增加,分类器的性能也会提高,直到达到最佳特征数。继续增加更多的特特征回降低分类器的性能。

在实际应用中,特征数量往往较多,其中可能存在不相关特征,特征之间也可能存在相互依赖,容易导致下面后果:

  1. 特征个数多,分析特征、训练模型所需的时间就越长

2.特征个数越多,会有维度灾难,模型越复杂,推广能力也会下降

特征选择能剔除不相关和冗余特征,从而达到减少特征个数,提高模型精度,减少运行时间的目的。同时简化模型

一 维数灾难

满足一定统计指标(期望和方差)的模型,需要的样本数量将随着维度的增加,指数增长。其在空间采样,样本划分中的表现较多,同时噪声影响大,因此需要进行特征降维。

特征选择 首先从特征全集中产生一个特征子集,然后用评价函数对该特征子集进行评价,评价结果与停止准则进行比较,如果评级结果比停止准则好就停止,否则就继续产生下一组特征自己,选出来的特征子集一般还要验证其有效性。

综上所述,特征选择一般包括产生过程、评价函数、停止准则、验证过程四个部分

1.产生过程:是搜索特征子集的过程,负责为评价函数提供特征子集

2.评价函数评价一个子集好坏的一个准则

3.停止准则:与评价函数相关,一般是一个阈值

4.验证过程:在验证数据集上验证选出来的特征子集的有效性

产生过程的搜索算法分为完全搜索,启发式搜索,随机搜索3大类

相关推荐
极客小云14 小时前
【手搓神经网络:从零实现三层BP神经网络识别手写数字】
人工智能·深度学习·神经网络
墨北小七14 小时前
从记忆到创作:LSTM如何赋能智能小说生成
人工智能·rnn·lstm
乾元14 小时前
现场运维机器人的工程化落地——移动探针采集 + AI 诊断,在真实网络中的实现路径
运维·网络·人工智能·架构·机器人·自动化
七夜zippoe14 小时前
领域驱动设计在Python中的实现:从理论到生产级实践
数据库·python·sqlite·ddd·pydantic
TG_imqfxt66614 小时前
虚拟机下安装苹果系统,虚拟机下如何实现协议群发iMessage?
python·objective-c
AgentBuilder14 小时前
768维的谎言:SOTA视觉模型为何输给7个数字?
人工智能·程序员
weixin_4624462314 小时前
使用 Python 创建和导出 Jupyter Notebook:从零到一的完整教程
开发语言·python·jupyter
杭州龙立智能科技14 小时前
专业的厂内运输车智能化厂家
大数据·人工智能·python
Bug改不动了14 小时前
在 Ubuntu 上用 Python 3.8 + RTX 4090 安装 Detectron2 完整指南
人工智能·深度学习
半熟的皮皮虾14 小时前
又重新写了个PDF工具箱-转换office格式/合并/拆分/删除常见操作都有了
python·程序人生·pdf·flask·开源·json·学习方法