机器学习--PCA降维算法

PCA主成分分析法(PCA降维算法)

如何从成绩单中,快速识别出哪些理科强哪些文科强

例子1:首先,在三维坐标系中寻找一条过原点的直线,空间上的所有数据点向这跟直线上投影,投影后的数据点必须方差最大(数据点在这跟直线的间隔必须最大)

然后,再找一根直线,这跟直线必须与它垂直,且满足同样的要求

然后,用两个直线作为一个二维平面的横轴和纵轴,成功把三维降到二维数据,可以把坐标轴一个当作理科综合成绩和文科综合成绩

例子2:随机挑出你的4个同学,不告诉他们是谁,只给你他们的信息让你分辨

如果给你身高信息可能相差不大无法分辨,但如果给你姓氏首字母,则四个数据点之间的间隔会更大------ 信息量大、方差最大

PCA算法的详细算法步骤和过程:

原始数据中不同科目的成绩范围不同

**去中心化:**首先计算每个科目的平均成绩,然后用每个同学的成绩去减去对应科目的平均成绩

(找到原始数据的中心点,整体移动数据的分布,将中心点对准坐标轴原点)

然后把减去平均值的数据分别进行平方运算,在彼此相加除以4-1,这组新数据叫做方差,开方为标准差

标准化的数据:(原始成绩-平均值)/ 标准差

计算每个科目与每个科目的相关性:例如语文和数学的相关性,将数学和语文的标准化数据相乘,再将A B C D相乘的结果分别相加之后除以4-1

数据是正的两个科目的成绩是正相关的,数学成绩好的同学语文成绩也不错;数据是负的两个科目是负相关的;数值是0,说明两个成绩毫不相关

计算特征值和特征向量

每个特征值对应一组特征向量,特征值代表着他对应的特征向量,可以解释数据之间的差异性程度。比如特征值最大的3.73,如果用他对应的特征向量去降维成绩数据,那么降维后的数据能保留原始成绩数据的74.60%的信息量,由于它保留的数据量最多,我们拿它当作主成分 1;然后是主成分 2,0.96。这就是我们要在三维坐标空间中的那两根直线,用这两根直线作为二维坐标系当中的横轴和纵轴。

主成分 1:它提取了数学、语文、物理的成分很多,所以可以看作是理科+文科综合成绩

主成分 2:英语成绩为负,但绝对值最大,这代表主成分 2利用英语的成绩抽取了更多的成分,所以英语成绩差的同学可以在坐标系中得到很好的体现

降维

用主成分 1的特征向量分别与一个同学的每个科目相乘,然后彼此相加

同理主成分 2

主成分1为横轴,主成分2为纵轴,最后在二维坐标中可以得到,4个同学的成绩的综合分布了

相关推荐
User_芊芊君子3 分钟前
CANN_PTO_ISA虚拟指令集全解析打造跨平台高性能计算的抽象层
人工智能·深度学习·神经网络
初恋叫萱萱6 分钟前
CANN 生态安全加固指南:构建可信、鲁棒、可审计的边缘 AI 系统
人工智能·安全
机器视觉的发动机11 分钟前
AI算力中心的能耗挑战与未来破局之路
开发语言·人工智能·自动化·视觉检测·机器视觉
铁蛋AI编程实战14 分钟前
通义千问 3.5 Turbo GGUF 量化版本地部署教程:4G 显存即可运行,数据永不泄露
java·人工智能·python
HyperAI超神经19 分钟前
在线教程|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁
开发语言·人工智能·深度学习·神经网络·机器学习·ocr·创业创新
JoySSLLian32 分钟前
手把手教你安装免费SSL证书(附宝塔/Nginx/Apache配置教程)
网络·人工智能·网络协议·tcp/ip·nginx·apache·ssl
BestSongC33 分钟前
行人摔倒检测系统 - 前端文档(1)
前端·人工智能·目标检测
模型时代40 分钟前
Anthropic明确拒绝在Claude中加入广告功能
人工智能·microsoft
夕小瑶43 分钟前
OpenClaw、Moltbook爆火,算力如何48小时内扩到1900张卡
人工智能
一枕眠秋雨>o<1 小时前
透视算力:cann-tools如何让AI性能调优从玄学走向科学
人工智能