20250713-`Seaborn.pairplot` 的使用注意事项

Seaborn.pairplot 的使用注意事项

sns.pairplot 是 Seaborn 中最常用、最强大的探索性数据分析(EDA)函数之一。 它在一个调用里就能同时展示:

  • 任意两两变量间的 散点图(观察关系、聚类、异常值)
  • 对角线上每个变量的 单变量分布(直方图 / KDE / 计数)
  • 类别变量 分组的 颜色映射(hue)

1. 基本语法

python 复制代码
seaborn.pairplot(
    data,                 # 必需,DataFrame
    vars=None,            # 指定列(默认全部数值列)
    x_vars=None, y_vars=None,  # 仅画部分组合(高级用法)
    hue=None,             # 按该列分组上色
    hue_order=None,       # hue 显示顺序
    palette=None,         # 调色板
    kind='scatter',       # 非对角线子图类型:'scatter' | 'reg' | 'kde' | 'hist'
    diag_kind='auto',     # 对角线:'auto' | 'hist' | 'kde' | None
    markers=None,         # 不同 hue 的散点形状 ['o','s','^']
    height=2.5,           # 单幅子图的高度(英寸inch)
    aspect=1,             # 宽高比(正方形)
    corner=False,         # 只画下三角
    dropna=True,          # 是否丢弃缺失值
    plot_kws=None,        # 传给非对角线的函数关键字(散点/回归函数)
    diag_kws=None,        # 传给对角线的函数关键字
    grid_kws=None         # 传给 PairGrid 的关键字
)

2. 参数详解 & 技巧

参数 说明 & 示例
vars 只画关心的列: vars=['trip_distance', 'fare_amount', 'tip']
hue 按类别上色: hue='pickup_cluster'
kind 关系图类型: kind='reg' → 加回归线 kind='kde' → 二维核密度
diag_kind 对角线: diag_kind='hist'(直方图) diag_kind='kde'(密度曲线)
corner=True 只画下三角,节省空间
height / aspect 控制整张图大小: height=3, aspect=1.2
plot_kws 传给散点图: plot_kws={'alpha':0.4, 's':20}
diag_kws 传给直方图: diag_kws={'bins':30, 'color':'skyblue'}
markers 不同 hue 的形状: markers=['o','s','D']

3. 最常见用法示例

准备数据:

python 复制代码
test_cols = ['medallion', 'hack_license', 'trip_time_in_mins', 'trip_distance', 'total_amount', 'pickup_dayofweek']
df = time_bins_data[test_cols].sample(frac=0.0001)  # 从数据集中随机抽取少量的样本(减少计算量)
df.columns
bash 复制代码
Index(['medallion', 'hack_license', 'trip_time_in_mins', 'trip_distance',
       'total_amount', 'pickup_dayofweek'],
      dtype='object')

① 快速浏览所有数值特征

python 复制代码
sns.pairplot(df)
plt.show()

② 只看指定列 + 按类别着色

python 复制代码
sns.pairplot(
    df,
    vars=['trip_distance', 'total_amount', 'pickup_dayofweek'],
    hue='pickup_dayofweek',
    palette='Set2',
    height=3
)
plt.show()

此时就出现一个问题 (hue, hue) = ('pickup_dayofweek', 'pickup_dayofweek') 子图是空的。此时应该是 varshue 变量与核密度函数 kde 之间的冲突问题,可解决该问题的方法有以下三种:

需要注意的一个问题是: 当 diag_kind='auto'(默认值) 时,seaborn 会根据 是否指定了 hue 来自动决定对角线子图类型:

  • 如果 hue=None(未指定) → 对角线画 直方图 hist
  • 如果 hue=某个列名(指定了) → 对角线画 核密度估计 kde
  1. 不要指定 vars 的内容
python 复制代码
sns.pairplot(
    df[['trip_distance', 'total_amount', 'pickup_dayofweek']],
    # vars=['trip_distance', 'total_amount', 'pickup_dayofweek'],
    hue='pickup_dayofweek',
    palette='Set2',
    # diag_kind='hist',
    height=3
)
plt.show()
  1. vars 中不要包含 hue 列,参见 ③

  2. 指定对角线子图的 diag_kind='hist' (前两个方法都不会统计显示 hue 列)

python 复制代码
sns.pairplot(
    df,
    vars=['trip_distance', 'total_amount', 'pickup_dayofweek'],  
    hue='pickup_dayofweek',
    palette='Set2',
    diag_kind='hist',
    height=3
)
plt.show()

关于颜色映射介绍可以学习这篇文章:在 Matplotlib 中选择色彩映射 --- Matplotlib 3.10.0 文档 - Matplotlib 绘图库

③ 下三角 + 回归线

python 复制代码
sns.pairplot(
    df,
    vars=test_cols[:4],
    hue='pickup_dayofweek',     # 按类别分组
    palette='Set1',            # 颜色调色板
    kind='reg',          # 非对角线加回归
    diag_kind='hist',    # 对角线直方图
    corner=True,         # 只画左下
)
plt.show()

④ 离散类别变量的对角线

python 复制代码
sns.pairplot(
    df,
    vars=test_cols,
    hue='pickup_dayofweek',     # 按类别分组
    palette='Set1',            # 颜色调色板
    plot_kws={'alpha': 0.4},     # 点透明度(提升重叠区域可读性)
    diag_kind='hist',   # 对角线子图用直方图展示单变量分布(kde, hist)
)
plt.show()

4. 返回对象 & 进一步自定义

pairplot 本质上是 PairGrid 的封装:

python 复制代码
g = sns.pairplot(
    df,
    vars=test_cols[2:],
    hue='pickup_dayofweek',     # 按类别分组
    palette='Set1',            # 颜色调色板
    plot_kws={'alpha': 0.4},     # 点透明度(提升重叠区域可读性)
    diag_kind='hist',   # 对角线子图用直方图展示单变量分布(kde, hist)
)
g.fig.suptitle("My Pairplot", y=1.02)     # 总标题
g.set(xlim=(0, 100), ylim=(0, 100))       # 统一坐标轴范围(需要合理设置,不然有些数据可能会无法显示)
g.map_diag(sns.histplot, kde=True)         # 对角线子图用直方图展示单变量分布(kde, hist)
plt.show()
# g.savefig("pairplot.png", dpi=300, bbox_inches='tight')  # 保存

5. 常见坑 & FAQ

问题 原因 & 解决
对角线空白 离散变量 + KDE → 用 diag_kind='hist'
hue 列不在 vars 里 把 hue 列也放进 vars 才能在对角线看到它
图太大 调小 heightcorner=True
颜色太多 限制 hue_order 或使用 palette

sns.pairplot = 一次函数调用,完成所有两两关系 + 分布 + 分组可视化,是 EDA 的瑞士军刀。

相关推荐
bluebonnet2725 分钟前
【Python】一些PEP提案(六):元类、默认 UTF-8、Web 开发
开发语言·前端·python
计算机毕设残哥26 分钟前
完整技术栈分享:基于Hadoop+Spark的在线教育投融资大数据可视化分析系统
大数据·hadoop·python·信息可视化·spark·计算机毕设·计算机毕业设计
千层冷面36 分钟前
Flask ORM 查询详解:Model.query vs db.session.query vs db.session.execute
数据库·python·django·flask
boooo_hhh3 小时前
第40周——GAN入门
人工智能·python·机器学习
ChaoQiezi3 小时前
Python:如何在Pycharm中显示geemap地图?
python·gee
小白学大数据3 小时前
1688商品数据抓取:Python爬虫+动态页面解析
爬虫·python·okhttp
华科云商xiao徐4 小时前
突破Python性能墙:关键模块C++化的爬虫优化指南
c++·爬虫·python
躲在云朵里`4 小时前
常用Linux指令:Java/MySQL/Tomcat/Redis/Nginx运维指南
开发语言·python
小白狮ww5 小时前
蛋白质设计新高度,RFdiffusion 实现从零设计高亲和力蛋白质
人工智能·python·开源
星火飞码iFlyCode5 小时前
真实案例 | 如何用iFlyCode开发Webpack插件?
java·python·编辑器