数据挖掘11

数据挖掘11--主成分分析PCA

首先介绍预备知识,不看也行

一、维归约(Dimensionality Reduction),也叫降维

高维数据映射到一个低维空间,保留原始数据中的重要结构、关系和信息

多选题

答案:ABCD

二、降维方法

1.特征提取方法:

典型方法有主成分分析、线性判别分析、自编码器等,将原始特征创造出全新的、数量更少的特征。

2.特征子集选择(Feature subset selection)

(1)定义:

从原有的数据中删除不重要或不相关的属性,或者对属性重组来减少属性的个数。

(2)目的:

找到最小的属性子集,且该子集的概率分布尽可能接近原数据集的概率分布

(3)寻找最小属性子集的方法:

1)逐步向前选择

2)逐步向后选择

3)向前选择与向后删除结合

3.聚集(Aggregation):

平均值、求和、最大值、最小值

4.抽样

现在开始介绍今天的主题PCA

二、PCA(Principal Component Analysis)

1.PCA的原理:

找到一组新的正交基(主成分),使得数据在这组基上的投影具有最大方差。

方差越大,说明数据在这个方向上越"分散",包含的信息越多。

举个极端情况的例子帮助理解:

数据都分布在水平直线上。

现在要用一维数据描述,选择X轴还是Y轴。

肯定是选择X轴,因为如果用Y轴描述,这些值投射在Y轴上值相同,无法区分。

现在您能理解分散的意义了吧

再举个二维的例子:

显然,y1 、y2更好。

2.PCA的几何意义:

从上面的极端例子,我们可知道主成分分析从几何上看,就是寻找数据在哪个方向上最分散。

换成专业词汇表达就是,

寻找主轴

数学点表达就是

p维空间m维椭球体的主轴问题(m < p)

那么在数学上主轴是什么呢?也就是主轴的计算方法?

各个主轴是相关矩阵的m个较大的特征值对应的特征向量

那什么是相关矩阵呢?

3.相关矩阵(Correlation Matrix)

第 i 行第 j 列的元素表示变量 Xi 与变量 Xj 之间的相关系数。


自然,

相关矩阵是一个对称方阵,因为第 i 行第 j 列的元素和第 j 行第 i 列的元素都是变量 Xi 与变量 Xj 之间的相关系数。

其中,

(1)对角线上的元素是每个变量与自身的相关系数,恒为 1。

(2)非对角线元素取值范围在 [−1,1]。

(3)1:完全正相关;0:无线性相关;-1:完全负相关。

4.多选题


答案:CDE

理由:

D正确:

PCA 是一种无监督学习方法,它只关注数据本身的方差结构,不关心样本的标签。

它的目标是找到能最大化数据方差的方向,而不是让不同类别尽可能分开。

所以,即使有两类数据(如图中蓝橙两色),PCA 也不会刻意去"区分"它们,只会找整体数据变化最大的方向。

这正是 PCA 的局限性:它可能将原本可分的类别投影到一起,从而导致分类性能下降。

C正确:

例如:原来有 100 维特征,用 PCA 降到 10 维,那么后续分类器(如 SVM、逻辑回归)需要拟合的参数大大减少,模型复杂度下降。

特别是在高维小样本场景下,PCA 有助于防止过拟合。

所以这个说法也正确。

B错误:

PCA 是降维,通常减少输入维度,这会让模型更简单(如线性分类器参数变少);

所以一般会降低模型复杂度,而不是提高。

此说法错误。

E正确

如图所示:两类数据虽然分离,但若 PCA 投影方向不是沿着类间差异最大方向(而是沿着总体方差最大方向),可能导致两类在新空间中重叠更多。

因此,有可能降低分类准确率,尤其是在类别分布不对称或非线性可分时。

相关推荐
风象南2 小时前
我把大脑开源给了AI
人工智能·后端
Johny_Zhao4 小时前
OpenClaw安装部署教程
linux·人工智能·ai·云计算·系统运维·openclaw
飞哥数智坊4 小时前
我帮你读《一人公司(OPC)发展研究》
人工智能
冬奇Lab7 小时前
OpenClaw 源码精读(3):Agent 执行引擎——AI 如何「思考」并与真实世界交互?
人工智能·aigc
没事勤琢磨9 小时前
如何让 OpenClaw 控制使用浏览器:让 AI 像真人一样操控你的浏览器
人工智能
用户5191495848459 小时前
CrushFTP 认证绕过漏洞利用工具 (CVE-2024-4040)
人工智能·aigc
牛马摆渡人52810 小时前
OpenClaw实战--Day1: 本地化
人工智能
前端小豆10 小时前
玩转 OpenClaw:打造你的私有 AI 助手网关
人工智能
BugShare10 小时前
写一个你自己的Agent Skills
人工智能·程序员
机器之心10 小时前
英伟达护城河被AI攻破,字节清华CUDA Agent,让人人能搓CUDA内核
人工智能·openai