【漫话机器学习系列】198.异常值(Outlier)


异常值(Outlier)全面指南 ------ 检测、分析与处理

作者:Chris Albon(图源) 场景:数据清洗与特征工程必备技能


一、什么是异常值(Outlier)

定义

异常值(Outlier)是指那些在数据集中远离其他观测值的点,通常与数据的整体趋势明显不同,可能源于错误、噪声、特殊事件或极端情况。


二、异常值的影响与处理原则

处理原则 说明 优缺点
Drop(删除) 删除异常值 简单粗暴,易丢失重要信息
Mark(标记) 给异常值打标识 保留信息,利于后续分析
Rescale(调整) 对异常值做缩放或替代 数据完整性好,降低干扰

三、异常值检测方法(含公式)

1. 基于统计特征的检测

1.1 标准差法(Z-Score)

公式:

<math xmlns="http://www.w3.org/1998/Math/MathML"> Z = X − μ σ Z = \frac{X - \mu}{\sigma} </math>Z=σX−μ

  • μ:均值
  • σ:标准差
  • 判断条件:|Z| > 3 视为异常值
1.2 四分位距法(IQR)

公式:

<math xmlns="http://www.w3.org/1998/Math/MathML"> I Q R = Q 3 − Q 1 IQR = Q3 - Q1 </math>IQR=Q3−Q1

判断条件:

<math xmlns="http://www.w3.org/1998/Math/MathML"> X < Q 1 − 1.5 × I Q R 或 X > Q 3 + 1.5 × I Q R X < Q1 - 1.5 \times IQR 或 X > Q3 + 1.5 \times IQR </math>X<Q1−1.5×IQR或X>Q3+1.5×IQR


2. 基于模型的检测

方法 说明 适用场景
Isolation Forest 随机切分 大数据集
One-Class SVM 边界学习 非线性数据
DBSCAN 密度聚类 空间型数据
LOF 局部离群因子 局部异常

四、异常值处理三种方式(Drop / Mark / Rescale)

1. Drop(删除)

示意图:

css 复制代码
原始数据:[1, 2, 3, 1000, 4, 5]
删除异常值:[1, 2, 3, 4, 5]

代码示例(IQR法):

ini 复制代码
import pandas as pd

df = pd.DataFrame({'value': [1, 2, 3, 1000, 4, 5]})

Q1 = df['value'].quantile(0.25)
Q3 = df['value'].quantile(0.75)
IQR = Q3 - Q1

df_clean = df[~((df['value'] < (Q1 - 1.5 * IQR)) | (df['value'] > (Q3 + 1.5 * IQR)))]
print(df_clean)

运行结果

复制代码
   value
0      1
1      2
2      3
4      4
5      5

2. Mark(打标)

示意图:

css 复制代码
原始数据:[1, 2, 3, 1000, 4, 5]
标记数据:[1, 2, 3, 1000(异常), 4, 5]

代码示例(Z-Score法):

python 复制代码
from scipy import stats
import numpy as np
import pandas as pd

df = pd.DataFrame({'value': [1, 2, 3, 1000, 4, 5]})

df['outlier'] = np.where(np.abs(stats.zscore(df['value'])) > 3, 1, 0)
print(df)

运行结果

yaml 复制代码
   value  outlier
0      1        0
1      2        0
2      3        0
3   1000        0
4      4        0
5      5        0

3. Rescale(调整)

常见处理方式:

  • Winsorizing(极值化)
  • Log / sqrt 变换
  • Cap(上下限)

代码示例(上下限限制):

ini 复制代码
import pandas as pd

df = pd.DataFrame({'value': [1, 2, 3, 1000, 4, 5]})

Q1 = df['value'].quantile(0.25)
Q3 = df['value'].quantile(0.75)

IQR = Q3 - Q1

upper_limit = Q3 + 1.5 * IQR
lower_limit = Q1 - 1.5 * IQR

df['value'] = df['value'].clip(lower=lower_limit, upper=upper_limit)
print(df)

运行结果

复制代码
   value
0    1.0
1    2.0
2    3.0
3    8.5
4    4.0
5    5.0

五、不同策略的适用场景对比

策略 适合情况 优缺点
Drop 异常点确实是错误值 丢失数据
Mark 不确定是否干扰模型 数据保留
Rescale 保留所有数据 需要谨慎使用

六、完整案例演示(含可视化)

绘制数据分布

dart 复制代码
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

df = pd.DataFrame({'value': [1, 2, 3, 1000, 4, 5]})

sns.boxplot(x=df['value'])
plt.show()


使用Isolation Forest检测异常值

bash 复制代码
from sklearn.ensemble import IsolationForest
import pandas as pd

df = pd.DataFrame({'value': [1, 2, 3, 1000, 4, 5]})
iso = IsolationForest(contamination=0.1)
df['outlier'] = iso.fit_predict(df[['value']])
print(df)

运行结果

yaml 复制代码
   value  outlier
0      1        1
1      2        1
2      3        1
3   1000       -1
4      4        1
5      5        1

七、总结

核心观点 说明
异常值检测 重要的特征工程步骤
三大处理策略 Drop / Mark / Rescale 各有适用
推荐顺序 先检测 → 再判断 → 再处理

八、参考图示(构思)

异常值处理策略关系图

sql 复制代码
                 检测
                   |
          -----------------
         |        |        |
       Drop     Mark     Rescale
         |        |        |
    丢弃数据   标记分析  调整保留
相关推荐
小白白搭建24 分钟前
wordperss AI插件:AI图文+视频+长尾关键词自动生成,已内置deepseek、kimi全模型,支持简单一键接入更多自定义API
人工智能·wordpress·ai插件·deepseek·wordprerss插件·wordpress ai插件
giszz44 分钟前
【Web3】上市公司利用RWA模式融资和促进业务发展案例
人工智能·web3·区块链
pen-ai1 小时前
【NLP】 26. 语言模型原理与概率建模方法详解(Language Models)
人工智能·语言模型·自然语言处理
pen-ai1 小时前
【NLP】30. 深入理解 In-Context Learning 的核心机制与策略
人工智能·自然语言处理
知舟不叙2 小时前
使用 OpenCV 和 Dlib实现轮廓绘制
人工智能·opencv·计算机视觉·轮廓绘制·人脸关键点检测
struggle20252 小时前
Sim Studio 是一个开源的代理工作流程构建器。Sim Studio 的界面是一种轻量级、直观的方式,可快速构建和部署LLMs与您最喜欢的工具连接
人工智能·开源·deepseek
武子康2 小时前
大语言模型 06 - 从0开始训练GPT 0.25B参数量 - MiniMind 实机配置 GPT训练基本流程概念
人工智能·gpt·ai·语言模型·自然语言处理
CodeJourney.2 小时前
基于DeepSeek与HTML的可视化图表创新研究
数据库·人工智能·信息可视化·excel
IT古董3 小时前
【漫话机器学习系列】234.阈值类特征的方差分析(Thresholding Categorical Feature Variance)
人工智能·python·机器学习
多巴胺与内啡肽.3 小时前
OpenCV进阶操作:图像直方图、直方图均衡化
人工智能·opencv·计算机视觉