什么是EDA(Exploratory Data Analysis,探索性数据分析)

EDA(Exploratory Data Analysis,探索性数据分析)是一种在正式建模前,通过统计量可视化方法来理解数据特征、发现模式与异常、并提出假设的过程。

这张图里你会看到:

  • 直方图:展示单变量的分布,并用红色虚线标出平均值,帮助理解集中趋势

  • 散点图:揭示两个变量之间的关系和可能的相关性

  • 方差柱状图:直观比较不同变量的波动大小

  • 均值标注:让你快速定位数据的中心位置

****** 整理 by Moshow郑锴@https://zhengkai.blog.csdn.net/

这里再用表格梳理一下"平均值+方差、散点图+直方图"在 EDA 中的作用👇

方法/指标 类型 主要作用 优点 常见注意点
平均值 (Mean) 描述性统计 衡量数据的集中趋势 直观易懂,计算简单 容易受极端值影响
方差 (Variance) 描述性统计 衡量数据离散程度 能反映波动大小 受量纲影响,需要配合标准差使用
散点图 (Scatter Plot) 可视化 观察两变量之间的关系、趋势或聚类 能发现相关性与离群点 当数据量太大时可能变得难以辨别
直方图 (Histogram) 可视化 显示单变量的分布形态 清晰展示分布特征和偏态 组距选择影响效果

💡 小贴士:

  • 平均值+方差适合做数值型特征的整体概览

  • 散点图更适合找变量之间的关系

  • 直方图能帮助识别分布是否偏态、是否存在多峰