机器学习:异常检测

问题定义

anomaly,outlier, novelty, exceptions

不同的方法使用不同的名词定义这类问题。

应用

二分类

假如只有正常的数据,而异常的数据的范围非常广的话(无法穷举),二分类这些不好做。另外就是异常资料不太好收集。

分类



每张图片都有标注,就可以来训练一个辛普森家族的成员分类器。

基于classifer来做异常检测。

基于信心分数来做异常问题,大于某值就是正常,小于某值就是异常

最大分数作为confidence


部分数据会有误判的情况

信心分估计

直接教网络信心分数,不仅是做分类任务C,也会给出信心分P

Train 和 Eval

100张辛普森家族图片,5张异常图片

  • 有蓝色的正常图被错误分类成异常
  • 有红色的异常图被错误分类成正常

这个时候用dev set上评估系统,这是一个二元分类问题。

正常异常比例的分布是非常悬殊的,这个系统可以有很高的准确率,但是没有做什么事,用acc准确率分类是没有意义的。

使用混淆矩阵:

cost table,做错的行为的代价,算一个分数:

针对自己的任务设定cost table。还有一些方法来衡量,比如AUC(roc曲线的面积)。

问题


脸上是黄的,然后系统给的分数就高,说明这个分类系统学到的并不是认清人,而是脸是否是黄的。

假设可以收到一些异常资料,可以学习在分类的同时,也给出异常的分数,但是这类数据不易收集。可以考虑使用GAN生成异常数据。

没有标签的场景


正常玩家和异常玩家(小白)

问题定义




需要数值化的方法来给每一个玩家的分数。 f ( 斯塔 ) f(斯塔) f(斯塔) 概率密度估计

高斯分布




相关推荐
源于花海31 分钟前
迁移学习的第三类方法:子空间学习(2)——流形学习
人工智能·机器学习·迁移学习·流形学习·子空间学习
李昊哲小课4 小时前
机器学习核心概念与经典算法全解析
人工智能·算法·机器学习·scikit-learn
勇气要爆发4 小时前
【AI扫盲】大模型(LLM)原理详解:从 DeepSeek 到 GPT-5 全面解析 (2026最新版)
人工智能·gpt·机器学习·llm·微调·多模态·预训练
RockHopper20254 小时前
流程工业的时序模型与机制论3M法则
人工智能·机器学习·智能制造·机制论
GIS数据转换器5 小时前
基于GIS的宠物救助服务平台
大数据·人工智能·科技·机器学习·无人机·智慧城市·宠物
audyxiao0015 小时前
会议热点扫描|通过智能交通顶级会议IEEE IV 2025看自动驾驶领域研究热点
人工智能·机器学习·自动驾驶·热点分析·ieee iv
点云SLAM5 小时前
似然函数(Likelihood Function)和最大似然估计
算法·机器学习·概率论·数理统计·最大似然估计·似然函数·概率分布
砚边数影6 小时前
线性回归实战(一):房价预测数据集入库KingbaseES,表结构设计
java·数据库·人工智能·深度学习·机器学习·线性回归·金仓数据库
Figo_Cheung6 小时前
Figo几何基础论:基于集合几何化的统一理论框架与哲学意涵——首次提出“几何化诱导的全息原理”
算法·机器学习·概率论·迭代加深
乾元6 小时前
社交工程 2.0:生成式 AI 驱动的高拟真钓鱼与认知对抗
网络·人工智能·安全·机器学习·架构