数据挖掘11

数据挖掘11--主成分分析PCA

首先介绍预备知识,不看也行

一、维归约(Dimensionality Reduction),也叫降维

高维数据映射到一个低维空间,保留原始数据中的重要结构、关系和信息

多选题

答案:ABCD

二、降维方法

1.特征提取方法:

典型方法有主成分分析、线性判别分析、自编码器等,将原始特征创造出全新的、数量更少的特征。

2.特征子集选择(Feature subset selection)

(1)定义:

从原有的数据中删除不重要或不相关的属性,或者对属性重组来减少属性的个数。

(2)目的:

找到最小的属性子集,且该子集的概率分布尽可能接近原数据集的概率分布

(3)寻找最小属性子集的方法:

1)逐步向前选择

2)逐步向后选择

3)向前选择与向后删除结合

3.聚集(Aggregation):

平均值、求和、最大值、最小值

4.抽样

现在开始介绍今天的主题PCA

二、PCA(Principal Component Analysis)

1.PCA的原理:

找到一组新的正交基(主成分),使得数据在这组基上的投影具有最大方差。

方差越大,说明数据在这个方向上越"分散",包含的信息越多。

举个极端情况的例子帮助理解:

数据都分布在水平直线上。

现在要用一维数据描述,选择X轴还是Y轴。

肯定是选择X轴,因为如果用Y轴描述,这些值投射在Y轴上值相同,无法区分。

现在您能理解分散的意义了吧

再举个二维的例子:

显然,y1 、y2更好。

2.PCA的几何意义:

从上面的极端例子,我们可知道主成分分析从几何上看,就是寻找数据在哪个方向上最分散。

换成专业词汇表达就是,

寻找主轴

数学点表达就是

p维空间m维椭球体的主轴问题(m < p)

那么在数学上主轴是什么呢?也就是主轴的计算方法?

各个主轴是相关矩阵的m个较大的特征值对应的特征向量

那什么是相关矩阵呢?

3.相关矩阵(Correlation Matrix)

第 i 行第 j 列的元素表示变量 Xi 与变量 Xj 之间的相关系数。


自然,

相关矩阵是一个对称方阵,因为第 i 行第 j 列的元素和第 j 行第 i 列的元素都是变量 Xi 与变量 Xj 之间的相关系数。

其中,

(1)对角线上的元素是每个变量与自身的相关系数,恒为 1。

(2)非对角线元素取值范围在 [−1,1]。

(3)1:完全正相关;0:无线性相关;-1:完全负相关。

4.多选题


答案:CDE

理由:

D正确:

PCA 是一种无监督学习方法,它只关注数据本身的方差结构,不关心样本的标签。

它的目标是找到能最大化数据方差的方向,而不是让不同类别尽可能分开。

所以,即使有两类数据(如图中蓝橙两色),PCA 也不会刻意去"区分"它们,只会找整体数据变化最大的方向。

这正是 PCA 的局限性:它可能将原本可分的类别投影到一起,从而导致分类性能下降。

C正确:

例如:原来有 100 维特征,用 PCA 降到 10 维,那么后续分类器(如 SVM、逻辑回归)需要拟合的参数大大减少,模型复杂度下降。

特别是在高维小样本场景下,PCA 有助于防止过拟合。

所以这个说法也正确。

B错误:

PCA 是降维,通常减少输入维度,这会让模型更简单(如线性分类器参数变少);

所以一般会降低模型复杂度,而不是提高。

此说法错误。

E正确

如图所示:两类数据虽然分离,但若 PCA 投影方向不是沿着类间差异最大方向(而是沿着总体方差最大方向),可能导致两类在新空间中重叠更多。

因此,有可能降低分类准确率,尤其是在类别分布不对称或非线性可分时。

相关推荐
黄焖鸡能干四碗5 分钟前
智能制造工业大数据应用及探索方案(PPT文件)
大数据·运维·人工智能·制造·需求分析
世岩清上12 分钟前
乡村振兴主题展厅本土化材料运用与地域文化施工表达
大数据·人工智能·乡村振兴·展厅
工藤学编程41 分钟前
零基础学AI大模型之LangChain智能体执行引擎AgentExecutor
人工智能·langchain
图生生1 小时前
基于AI的商品场景图批量生成方案,助力电商大促效率翻倍
人工智能·ai
说私域1 小时前
短视频私域流量池的变现路径创新:基于AI智能名片链动2+1模式S2B2C商城小程序的实践研究
大数据·人工智能·小程序
yugi9878381 小时前
用于图像分类的EMAP:概念、实现与工具支持
人工智能·计算机视觉·分类
aigcapi1 小时前
AI搜索排名提升:GEO优化如何成为企业增长新引擎
人工智能
彼岸花开了吗1 小时前
构建AI智能体:八十、SVD知识整理与降维:从数据混沌到语义秩序的智能转换
人工智能·python·llm
MM_MS1 小时前
Halcon图像锐化和图像增强、窗口的相关算子
大数据·图像处理·人工智能·opencv·算法·计算机视觉·视觉检测
韩师傅1 小时前
前端开发消亡史:AI也无法掩盖没有设计创造力的真相
前端·人工智能·后端