机器学习（六）--异常检测、主成分分析

异常检测定义

根据输入的数据，对不符合预期模式的数据进行识别。

概率密度：

概率密度是描述随机变量在某个确定点附近可能性的函数。（听起来有点绕）

拓展下概率密度函数求概率

f(x)是概率密度函数，x落在a到b区间的概率就是，对于f(x)在区间[a,b]求积分。

现在的问题是单说一个f(a)或f(b)这个概率密度值有什么含义。单点的概率密度总结起来三句话

1、不是概率

2、是密集程度的一种表示

3、这个单点的概率密度值越大，越说明X（样本）越喜欢在这个单点值附件扎堆儿。

口诀：

概率密度看高低，判断哪里更密集。

真正概率看面积，单点永远都是0。

基于概率分布如何做异常检测

主成分分析（PCA）

数据降维

数据降维是指，在某些限定条件下，降低随机变量的个数，得到一组不相关的"主变量"过程。

比如举的这个例子17个指标最后降维成3个

作用：

1、减少模型数据分析量，提高分析效率，降低计算难度

2、实现数据可视化（二维，三维）

目标：寻找一个K维（K<N）的数据，使他们反应数据的具体特征

核心：在信息损失尽可能小的情况下，降低数据维度。

如何保留主要信息：

投影后，不同特征的数据尽可能分得开（即不相关）

如何实现？

使投影后的方差（协方差）最大，因为方差越大，数据越分散

PCA求解与线性回归的区别

PCA 求解与线性回归求解不一样 ，核心差别在于优化目标和误差定义，可以从图中直观理解：

1. 误差方向不同（最直观的区别）

左侧 PCA 图 ：误差是样本点到拟合直线的垂直距离（正交投影），目标是最小化所有点到这条线的垂直距离平方和，即最大化数据在这条线上的方差，从而保留最多信息。
右侧线性回归图 ：误差是样本点到拟合直线的纵向距离（沿 y 轴方向），目标是最小化所有点在 y 轴方向上的预测误差平方和，即最小化预测值与真实值的偏差。

2. 核心目标不同

PCA（主成分分析） ：属于无监督学习，目标是降维、提取特征，不区分自变量和因变量，只关注数据本身的结构，找到能最大程度保留数据方差的方向。
线性回归 ：属于有监督学习，目标是预测，明确区分自变量 x 和因变量 y，通过拟合直线来根据 x 预测 y。

3. 求解方法不同

PCA ：通过求解协方差矩阵的特征值和特征向量，找到主成分方向，本质是一个特征分解问题。
线性回归 ：通过最小化均方误差（MSE）求解，本质是一个最小二乘优化问题。

问题：最小化所有点到直线的垂直距离平方和，等价于最大化投影后的方差，而这个方向就是 PCA 要找的主成分方向。

1. 几何直观理解

想象平面上有一组数据点（椭圆形），我们要画一条直线，让所有点到这条直线的垂直距离之和尽可能小：

如果直线方向选得不好，很多点离直线很远，垂直距离平方和就会很大。
当直线刚好沿着数据分布最广的方向（椭圆长轴）时，大部分点都贴近这条直线，垂直距离平方和就会最小。（数据分布最广的方向，数据投影后越离散）
同时，数据点在这条直线上的投影会分布得最开，也就是投影方差最大。

所以，"最小化垂直距离平方和" 和 "最大化投影方差" 其实是在找同一条直线。