例如飞机发动机的异常检测,假设只有两个特征,新的样本和之前的样本偏离的很多,就认为可能是异常的点。
一种方法是密度估计(density estimation),计算训练样本的 x 落在某个区间的概率,当验证集的样本的概率小于一个很小的数时,认为这种情况是异常的。
高斯分布 (Guassian distribution,也叫正态分布,normal distribution,钟形分布,bell-shape distribution)
如下图,这个曲线以 μ 为中心,表示的是 p(x),σ是标准差。
几个高斯分布的例子
μ 和 σ如下图所示,其中有些统计学家会用1/m-1替换1/m, 但这不是很重要。