20240803---特征选择与稀疏学习

豆沙沙包?2024-08-04 23:54

1.特征选择：在机器学习任务中，通过样本的特征预测样本所对应的值。

（1）无关特征：通过空气的湿度、环境的温度、风力、当地人的男女比例来预测明天是否下雨。男女比例属于无关特征。

（2）冗余特征：通过房屋的面积、卧室的面积、车库的面积、城市消费水平、城市税收水平等特征来预测房价。这里面的税收水平就说多余特征。

因为税收水平和消费水平存在相关性，我们只要两者取其一就可以。（因为另一个能从其中一个推演出来）

线性相关，用线性模型做回归会出现多重共线性，会导致过拟合。

(3)减少特征:不仅减少过拟合、减少特征数量（降维)、提高模型泛化能力，而且还可以使模型获得更好的解释性，增强对特征和特征值之间的理解，加快模型的训练速度，一般的，还会获得更好的性能。问题是，在面对未知领域时，很难有足够的认识去判断特征与目标之间的相关性，特征与特征之间的相关性。这时候就需要用一些数学或工程上的方法来帮助我们更好地进行特征选择。

2.特征选择的方法

1）过滤法(Filter):

按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征

2）包裹法(Wrapper)︰

根据目标函数，每次选择若干特征或者排除若干特征，直到选择出最佳的子集。

3）嵌入法(Embedding):

先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。类似于Filter方法，但是是通过训练来确定特征的优劣。

补充：

三、稀疏表示

四、字典学习

（1）字典学习

（2）字典学习的解法

看到了p60，明天还有ppt1和pp3要看

上一篇：图欧学习资源库与学习资源船舱一周年！导航站上线！2022年11月~2023年5月更新日志

下一篇：平舌、翘舌音学习： z、c、s--zh、ch、sh

热门推荐

01UV安装并设置国内源 02KGG转MP3工具|非KGM文件|解密音频 03Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 04【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）05蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 062025最新国内服务器可用docker源仓库地址大全（2025年8月更新）07TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践 08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09阿里开源首个图像生成基础模型——Qwen-Image本地部署教程，超强中文渲染能力刷新SOTA！10TRAE Rules 实践：为项目配置 6A 工作流