python异常检测 - 随机离群选择Stochastic Outlier Selection (SOS)

python异常检测 - Stochastic Outlier Selection (SOS)

前言

随机离群选择SOS算法全称stochastic outlier selection algorithm. 该算法的作者是jeroen janssens. SOS算法是一种无监督的异常检测算法.

随机离群选择SOS算法原理

随机离群选择SOS算法的输入:

  • 特征矩阵(feature martrix)或者相异度矩阵(dissimilarity matrix)

随机离群选择SOS算法的输出:

  • 一个异常概率值向量(每个点对应一个).

随机离群选择SOS算法的基本思想

  • 一个点和其它所有点的关联度(affinity)都很小的时候,它就是一个异常点。

随机离群选择SOS实现

随机利群选择SOS的的实现原理

将特征矩阵(feature martrix)或者相异度矩阵(dissimilarity matrix)输入给SOS算法,会返回一个异常概率值向量(每个点对应一个)。SOS的思想是:当一个点和其它所有点的关联度(affinity)都很小的时候,它就是一个异常点。

SOS的流程

1.随机抽样:首先,从原始数据集中随机抽样生成多个子集。每个子集包含原始数据集的一部分样本。

2.距离度量:对于每个子集,计算其中每一对样本之间的距离。通常使用的是欧氏距离或其他合适的距离度量。这一步旨在捕捉子集内样本的相对分布情况。

3.离群得分计算: 对于每个样本,计算其到其他样本的平均距离。离群得分越高,表示该样本越可能是离群点。这个过程有助于识别在整个数据集中相对较远的样本。

4.阈值设定: 根据计算得到的离群得分设定一个阈值。样本的离群得分超过该阈值的话,就被认为是离群点。

相异度矩阵D是各样本两两之间的度量距离, 比如欧式距离或汉明距离等。关联度矩阵反映的是 度量距离方差, 如关联度矩阵中密度可视化所示, 点 的密度最大, 方差最小; 的密度最小, 方差最大。而关联概率 矩阵 (binding probability matrix)就是把关联矩阵(affinity matrix)按行归一化得到的, 如图关联矩阵归一化所 示。

关联度矩阵中密度可视化

关联矩阵归一化

得到了binding probability matrix,每个点的异常概率值就用如下的公式计算,当一个点和其它所有点的关联度(affinity)都很小的时候,它就是一个异常点。

代码实现

powershell 复制代码
import pandas as pd
from sksos import SOS
iris = pd.read_csv("http://bit.ly/iris-csv")
X = iris.drop("Name", axis=1).values
detector = SOS()
iris["score"] = detector.predict(X)
iris.sort_values("score", ascending=False).head(10)

参考资料
收藏!14 种Python异常检测方法总结
【异常检测】数据挖掘领域常用异常检测算法总结以及原理解析

相关推荐
yexuhgu17 分钟前
CSS如何利用-checked实现纯CSS手风琴折叠_通过状态选择器控制区域高度
jvm·数据库·python
AC赳赳老秦23 分钟前
接口测试自动化:用 OpenClaw 对接 Postman,实现批量回归测试、测试报告自动生成与推送
java·人工智能·python·算法·elasticsearch·deepseek·openclaw
两年半的个人练习生^_^23 分钟前
Java日志框架和使用、日志记录规范
java·开发语言·开发规范
PILIPALAPENG27 分钟前
第4周 Day 1:智能体记忆系统——给 Agent 一个"大脑"
前端·人工智能·python
DavidTaozhe32 分钟前
一文搞懂外汇接口怎么实时更新美元汇率
大数据·python
用户78937733908531 小时前
Docker 部署踩坑记录:从“构建失败”到“服务跑通”,以及为什么数据被清空了
python·docker
再玩一会儿看代码1 小时前
如何理解神经网络中的权重参数?从一张图看懂模型参数量计算
人工智能·经验分享·python·深度学习·神经网络·机器学习
2301_779622411 小时前
mysql如何通过主从备份实现读写分离_配置mysql架构模式
jvm·数据库·python
杨凯凡1 小时前
【032】排查入门:jstack、heap dump、Arthas 初识
java·开发语言·后端
其实防守也摸鱼1 小时前
无线网络安全--实验 规避WLAN验证之发现隐藏的SSID
java·开发语言·网络·安全·web安全·智能路由器·无线网络安全