Python数据分析与可视化笔记 六 特征构建 特征提取 主成分分析 独立成分分析 线性判别分析

特征构建

特征构建是指从原始特征中人工构建新的特征。假设原始数据是表格数据,可以使用混合属性或者组合数学来创建新的特征。

特征提取

特征提取是在原始特征的基础上,自动构建新的特征,将原始数据转换为一组更具物理意义、统计意义或者核的特征。特征提取的主要方法包括主成分分析、独立成分分析和线性判别分析。

1.主成分分析 (Principal Component Analysis, PCA)

PCA的思想是通过坐标轴转换 ,寻找数据分布的最优子空间,从而达到降维去除数据间相关性的目的。在数学上,是先用原始数据协方差矩阵的前 N 个最大特征值对应的特征向量构成映射矩阵,然后原始矩阵左乘映射矩阵,从而对原始数据降维。

2.独立成分分析(Independent Component Analysis, ICA)

PCA特征转换降维,提取的是不相关的部分, ICA 获得的是相互独立的属性 。ICA 算法本质是寻找一个线性变换 Z = W_x,使得 Z 的各特征分量之间的独立性最大。ICA 比 PCA更能刻画变量的随机统计特性 ,且能抑制噪声。ICA 认为观测到的数据矩阵 X 是可以由未知的独立元矩阵 S 与未知的矩阵 A 相乘得到的。

3.线性判别分析( Linear Discriminant Analysis,LDA)

LDA 的原理是将带上标签的数据(点)通过投影的方法,投影到维度更低的空间,使得投影后的点会形成按类别区分,相同类别的点将会在投影后更接近。

相关推荐
千匠网络1 分钟前
破局出海壁垒,千匠网络新能源汽车跨境出海解决方案
人工智能
三品吉他手会点灯2 小时前
C语言学习笔记 - 20.C编程预备计算机专业知识 - 变量为什么必须的初始化【重点】
c语言·笔记·学习
kobesdu2 小时前
【ROS2实战笔记-12】rosshow:终端里的盲文可视化与无头机器人的现场调试
笔记·机器人·ros·移动机器人
马丁聊GEO2 小时前
解码AI用户心智,筑牢可信GEO根基——悠易科技深度参与《中国AI用户态度与行为研究报告(2026)》发布会
人工智能·科技
nap-joker2 小时前
Fusion - Mamba用于跨模态目标检测
人工智能·目标检测·计算机视觉·fusion-mamba·可见光-红外成像融合·远距离/伪目标问题
sakiko_2 小时前
UIKit学习笔记1-创建项目(使用UIKit)、使用组件
笔记·学习
一只幸运猫.2 小时前
2026Java 后端面试完整版|八股简答 + AI 大模型集成技术(最新趋势)
人工智能·面试·职场和发展
Promise微笑2 小时前
2026年国产替代油介损测试仪:油介损全场景解决方案与技术演进
大数据·网络·人工智能
深海鱼在掘金2 小时前
深入浅出 LangChain —— 第三章:模型抽象层
人工智能·langchain·agent
生信碱移2 小时前
PACells:这个方法可以鉴定疾病/预后相关的重要细胞亚群,作者提供的代码流程可以学习起来了,甚至兼容转录组与 ATAC 两种数据类型!
人工智能·学习·算法·机器学习·数据挖掘·数据分析·r语言