机器学习入门(六)异常检测

如下图所示,不同于假设的数据,在现实中我们获取到的数据集一定会存在某些异常的数据点。

如果异常的数据点太多或者影响太大,则会显著降低我们模型的性能。这时,我们可以使用异常检测的方法来找出数据集中的异常点。

例如在线采集而来的有关用户的数据,一个特征向量中可能会包含如:用户多久登录一次,访问过的页面,在论坛发布的帖子数量,甚至是打字速度等。尝试根据这些特征构建一个模型,可以用这个模型来识别那些不符合该模式的用户。

异常检测(Anomaly Detection)

异常检测是指根据输入数据,对不符合预期模式的数据进行识别。

如上图所示,在红色圈内的数据属于该组数据的可能性较高,而越是偏远的数据,其属于该 组数据的可能性就越低。这时我们就可以通过 <math xmlns="http://www.w3.org/1998/Math/MathML"> 𝑝 ( 𝑥 ) < 𝜀 𝑝(𝑥) < 𝜀 </math>p(x)<𝜀 检测非正常用户。这种方法被称为密度估计法。

如何实现异常检测

异常检测检测有很多检测算法,我们这里使用 sklearn 中的 EllipticEnvelope 来实现。它被用于检测高斯分布数据集中异常值的对象。

ini 复制代码
# 建立模型
from sklearn.covariance import EllipticEnvelope
ad_model = EllipticEnvelope(contamination=0.02)
ad_model.fit(data)
# 预测异常点
y_predict = ad_model.predict(data)
# 可视化结果
fig4 = plt.figure(figsize=(10, 10))
original_data = plt.scatter(data.loc[:, 'x1'], data.loc[:, 'x2'], marker='x')
anomaly_data = plt.scatter(data.loc[:, 'x1'][y_predict == -1], 
            data.loc[:, 'x2'][y_predict == -1], 
            marker='o',
            facecolor='none',
            edgecolor='red',
            s = 150)
plt.title('anomaly detection result')
plt.xlabel('x1')
plt.ylabel('x2')
plt.legend((original_data, anomaly_data), ('original_data', 'anomaly_data'))
plt.show()

效果如下图所示:

异常检测与监督学习对比

从上面的描述可以看到,异常检测类似于二分任务,它需要找出错误和异常的数据。那么我们能不能直接采用监督学习的逻辑回归来实现异常检测呢?

但实际上是很难按照这样的做法来实现的!因为正类的样本实际上我们很容易收集到,但是负类的样本可以说很难收集,或者说负类样本是无穷无尽的,没有办法让机器学习到每一种负类样本的特征

另外一个问题是异常的例子通常很难被收集到,例如网络的异常访问或者异常的交易数据等等,都是在大量的正常数据中才能够找到一个异常数据,因此这也是很严重的问题。

参考

相关推荐
知乎的哥廷根数学学派1 小时前
基于物理信息嵌入与多维度约束的深度学习地基承载力智能预测与可解释性评估算法(以模拟信号为例,Pytorch)
人工智能·pytorch·python·深度学习·算法·机器学习
格林威1 小时前
印刷电路板阻焊层缺失识别:防止短路风险的 7 个核心策略,附 OpenCV+Halcon 实战代码!
人工智能·数码相机·opencv·机器学习·计算机视觉·视觉检测·工业相机
liu****1 小时前
git工具
git·python·算法·机器学习·计算机基础
冰西瓜6002 小时前
从项目入手机器学习——(一)数据预处理(上)
人工智能·机器学习
sunfove2 小时前
空间几何的基石:直角、柱、球坐标系的原理与转换详解
人工智能·python·机器学习
知乎的哥廷根数学学派2 小时前
基于多尺度特征提取和注意力自适应动态路由胶囊网络的工业轴承故障诊断算法(Pytorch)
开发语言·网络·人工智能·pytorch·python·算法·机器学习
Yuer20252 小时前
低熵回答倾向:语言模型中的一种系统稳定态
人工智能·机器学习·语言模型·ai安全·edca os
郝学胜-神的一滴2 小时前
《机器学习》经典教材全景解读:周志华教授匠心之作的技术深探
数据结构·人工智能·python·程序人生·机器学习·sklearn
知乎的哥廷根数学学派2 小时前
基于物理约束与多源知识融合的浅基础极限承载力智能预测与工程决策优化(以模拟信号为例,Pytorch)
人工智能·pytorch·python·深度学习·神经网络·机器学习
小棠师姐3 小时前
随机森林原理与实战:如何解决过拟合问题?
算法·机器学习·随机森林算法·python实战·过拟合解决