机器学习(六)--异常检测、主成分分析

异常检测定义

根据输入的数据,对不符合预期模式的数据进行识别。

概率密度:

概率密度是描述随机变量在某个确定点附近可能性的函数。(听起来有点绕)

拓展下概率密度函数求概率

f(x)是概率密度函数,x落在a到b区间的概率就是,对于f(x)在区间[a,b]求积分。

现在的问题是单说一个f(a)或f(b)这个概率密度值有什么含义。单点的概率密度总结起来三句话

1、不是概率

2、是密集程度的一种表示

3、这个单点的概率密度值越大,越说明X(样本)越喜欢在这个单点值附件扎堆儿。

口诀:

概率密度看高低,判断哪里更密集。

真正概率看面积,单点永远都是0。

基于概率分布如何做异常检测

主成分分析(PCA)

数据降维

数据降维是指,在某些限定条件下,降低随机变量的个数,得到一组不相关的"主变量"过程。

比如举的这个例子17个指标最后降维成3个

作用:

1、减少模型数据分析量,提高分析效率,降低计算难度

2、实现数据可视化(二维,三维)

目标:寻找一个K维(K<N)的数据,使他们反应数据的具体特征

核心:在信息损失尽可能小的情况下,降低数据维度。

如何保留主要信息:

投影后,不同特征的数据尽可能分得开(即不相关)

如何实现?

使投影后的方差(协方差)最大,因为方差越大,数据越分散

PCA求解与线性回归的区别

PCA 求解与线性回归求解不一样 ,核心差别在于优化目标和误差定义,可以从图中直观理解:

1. 误差方向不同(最直观的区别)

  • 左侧 PCA 图 :误差是样本点到拟合直线的垂直距离(正交投影),目标是最小化所有点到这条线的垂直距离平方和,即最大化数据在这条线上的方差,从而保留最多信息。
  • 右侧线性回归图 :误差是样本点到拟合直线的纵向距离(沿 y 轴方向),目标是最小化所有点在 y 轴方向上的预测误差平方和,即最小化预测值与真实值的偏差。

2. 核心目标不同

  • PCA(主成分分析) :属于无监督学习,目标是降维、提取特征,不区分自变量和因变量,只关注数据本身的结构,找到能最大程度保留数据方差的方向。
  • 线性回归 :属于有监督学习,目标是预测,明确区分自变量 x 和因变量 y,通过拟合直线来根据 x 预测 y。

3. 求解方法不同

  • PCA :通过求解协方差矩阵的特征值和特征向量,找到主成分方向,本质是一个特征分解问题。
  • 线性回归 :通过最小化均方误差(MSE)求解,本质是一个最小二乘优化问题。

问题:最小化所有点到直线的垂直距离平方和 ,等价于最大化投影后的方差,而这个方向就是 PCA 要找的主成分方向。

1. 几何直观理解

想象平面上有一组数据点(椭圆形),我们要画一条直线,让所有点到这条直线的垂直距离之和尽可能小:

  • 如果直线方向选得不好,很多点离直线很远,垂直距离平方和就会很大。
  • 当直线刚好沿着数据分布最广的方向(椭圆长轴)时,大部分点都贴近这条直线,垂直距离平方和就会最小。(数据分布最广的方向,数据投影后越离散)
  • 同时,数据点在这条直线上的投影会分布得最开,也就是投影方差最大

所以,"最小化垂直距离平方和" 和 "最大化投影方差" 其实是在找同一条直线。

相关推荐
لا معنى له1 分钟前
WAM与AC-WM:具身智能时代的世界动作模型与动作条件世界模型
人工智能·笔记·学习
uzong18 分钟前
AI Agent 是什么,如何理解它,未来挑战和思考
人工智能·后端·架构
2401_8955213420 分钟前
spring-ai 下载不了依赖spring-ai-openai-spring-boot-starter
java·人工智能·spring
冬奇Lab23 分钟前
从 Prompt 工程师到 Harness 工程师:AI 协作范式的三次进化
人工智能
jixinghuifu35 分钟前
理性权衡:手机系统更新,别盲目也别抗拒
人工智能·安全·智能手机
LJ979511137 分钟前
从被动救火到主动防御:Infoseek舆情监测系统的技术架构与实战拆解
人工智能
CareyWYR1 小时前
每周AI论文速递(260323-260327)
人工智能
guoji77881 小时前
安全与对齐的深层博弈:Gemini 3.1 Pro 安全护栏与对抗测试深度拆解
人工智能·安全
实在智能RPA2 小时前
实在 Agent 和通用大模型有什么不一样?深度拆解 AI Agent 的感知、决策与执行逻辑
人工智能·ai
独隅2 小时前
PyTorch 模型部署的 Docker 配置与性能调优深入指南
人工智能·pytorch·docker