机器学习(六)--异常检测、主成分分析

异常检测定义

根据输入的数据,对不符合预期模式的数据进行识别。

概率密度:

概率密度是描述随机变量在某个确定点附近可能性的函数。(听起来有点绕)

拓展下概率密度函数求概率

f(x)是概率密度函数,x落在a到b区间的概率就是,对于f(x)在区间[a,b]求积分。

现在的问题是单说一个f(a)或f(b)这个概率密度值有什么含义。单点的概率密度总结起来三句话

1、不是概率

2、是密集程度的一种表示

3、这个单点的概率密度值越大,越说明X(样本)越喜欢在这个单点值附件扎堆儿。

口诀:

概率密度看高低,判断哪里更密集。

真正概率看面积,单点永远都是0。

基于概率分布如何做异常检测

主成分分析(PCA)

数据降维

数据降维是指,在某些限定条件下,降低随机变量的个数,得到一组不相关的"主变量"过程。

比如举的这个例子17个指标最后降维成3个

作用:

1、减少模型数据分析量,提高分析效率,降低计算难度

2、实现数据可视化(二维,三维)

目标:寻找一个K维(K<N)的数据,使他们反应数据的具体特征

核心:在信息损失尽可能小的情况下,降低数据维度。

如何保留主要信息:

投影后,不同特征的数据尽可能分得开(即不相关)

如何实现?

使投影后的方差(协方差)最大,因为方差越大,数据越分散

PCA求解与线性回归的区别

PCA 求解与线性回归求解不一样 ,核心差别在于优化目标和误差定义,可以从图中直观理解:

1. 误差方向不同(最直观的区别)

  • 左侧 PCA 图 :误差是样本点到拟合直线的垂直距离(正交投影),目标是最小化所有点到这条线的垂直距离平方和,即最大化数据在这条线上的方差,从而保留最多信息。
  • 右侧线性回归图 :误差是样本点到拟合直线的纵向距离(沿 y 轴方向),目标是最小化所有点在 y 轴方向上的预测误差平方和,即最小化预测值与真实值的偏差。

2. 核心目标不同

  • PCA(主成分分析) :属于无监督学习,目标是降维、提取特征,不区分自变量和因变量,只关注数据本身的结构,找到能最大程度保留数据方差的方向。
  • 线性回归 :属于有监督学习,目标是预测,明确区分自变量 x 和因变量 y,通过拟合直线来根据 x 预测 y。

3. 求解方法不同

  • PCA :通过求解协方差矩阵的特征值和特征向量,找到主成分方向,本质是一个特征分解问题。
  • 线性回归 :通过最小化均方误差(MSE)求解,本质是一个最小二乘优化问题。

问题:最小化所有点到直线的垂直距离平方和 ,等价于最大化投影后的方差,而这个方向就是 PCA 要找的主成分方向。

1. 几何直观理解

想象平面上有一组数据点(椭圆形),我们要画一条直线,让所有点到这条直线的垂直距离之和尽可能小:

  • 如果直线方向选得不好,很多点离直线很远,垂直距离平方和就会很大。
  • 当直线刚好沿着数据分布最广的方向(椭圆长轴)时,大部分点都贴近这条直线,垂直距离平方和就会最小。(数据分布最广的方向,数据投影后越离散)
  • 同时,数据点在这条直线上的投影会分布得最开,也就是投影方差最大

所以,"最小化垂直距离平方和" 和 "最大化投影方差" 其实是在找同一条直线。

相关推荐
想你依然心痛3 小时前
HarmonyOS 6(API 23)实战:基于悬浮导航、沉浸光感与HMAF的“译界智脑“——PC端AI智能体沉浸式智能翻译与跨语言协作工作台
人工智能·华为·ar·harmonyos
几司3 小时前
OpenISP 模块拆解 · 第11讲:非局部均值降噪 (NLM)
人工智能·算法·均值算法·isp
海上彼尚3 小时前
Nodejs也能写Agent - 7.基础篇 - MCP
前端·javascript·人工智能·node.js
灵途科技3 小时前
具身智能时代,灵途科技重构机器人感知
人工智能·机器人
寻道码路3 小时前
LangChain4j Java AI 应用开发实战(二):大模型参数调优实战:Temperature、TopP、MaxTokens 深度解析
java·开发语言·人工智能·aigc
Mr数据杨3 小时前
【CanMV K210】传感器实验 DHT11 温湿度读取与环境监测
人工智能·硬件开发·canmv k210
笑小枫3 小时前
行业新趋势:官网数字人成标配,具身交互重构用户触达
人工智能·交互
名字不好奇3 小时前
大模型如何训练?猜词游戏如何炼成智能大脑
深度学习·游戏·机器学习
梦想的初衷~3 小时前
AI辅助下基于ArcGIS Pro的SWAT模型全流程高效建模实践与深度进阶应用
人工智能·arcgis·气候·水文·地理信息·环境科学
数智工坊3 小时前
RT-DETRv2训练自定义数据集的排坑全记录
人工智能