「日拱一码」155 小提琴图

目录

什么是小提琴图?

数学原理

[核密度估计(Kernel Density Estimation, KDE)](#核密度估计(Kernel Density Estimation, KDE))

带宽选择的影响

小提琴图的优势

代码示例

[1. 基础小提琴图](#1. 基础小提琴图)

[2. 水平小提琴图](#2. 水平小提琴图)

[3. 分组小提琴图](#3. 分组小提琴图)

[4. 小提琴图与箱型图对比](#4. 小提琴图与箱型图对比)


什么是小提琴图?

小提琴图是箱形图与核密度图的结合,它能够同时显示:

  • 数据的分布形状(通过核密度估计)
  • 统计摘要信息(中位数、四分位数等)

数学原理

核密度估计(Kernel Density Estimation, KDE)

小提琴图的形状基于核密度估计,公式为:

其中:

  • K 是核函数(通常使用高斯核)
  • h 是带宽参数,控制平滑程度
  • n 是样本数量
  • xi 是样本点

带宽选择的影响

  • 小带宽:密度曲线波动大,显示细节但可能过拟合
  • 大带宽:曲线平滑,可能掩盖重要特征

小提琴图的优势

  1. 信息丰富:比箱形图展示更多分布信息
  2. 直观可视化:清晰显示数据的密度分布
  3. 多组比较:便于比较不同组别的数据分布

代码示例

1. 基础小提琴图

python 复制代码
## 1. 基础小提琴图
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import pandas as pd

np.random.seed(42)
data1 = np.random.normal(0, 1, 200)
data2 = np.random.normal(5, 1.5, 200)
data3 = np.random.normal(10, 0.8, 200)

# 创建DataFrame
df = pd.DataFrame({
    'Value': np.concatenate([data1, data2, data3]),
    'Category': ['Group A'] * 200 + ['Group B'] * 200 + ['Group C'] * 200
})

# 使用matplotlib绘制小提琴图
plt.figure(figsize=(10, 6))
plt.violinplot([data1, data2, data3], showmeans=True, showmedians=True)
plt.xticks([1, 2, 3], ['Group A', 'Group B', 'Group C'])
plt.title('Basic Violin Plot using Matplotlib')
plt.ylabel('Values')
plt.grid(alpha=0.3)
plt.show()


# 使用Seaborn绘制(更美观)
plt.figure(figsize=(10, 6))
sns.violinplot(data=df, x='Category', y='Value',
               palette='Set2', inner='quartile')
plt.title('Violin Plot using Seaborn')
plt.show()

2. 水平小提琴图

python 复制代码
## 水平小提琴图
plt.figure(figsize=(8, 6))
sns.violinplot(data=df, y='Category', x='Value',
               palette='pastel', inner='box')
plt.title('Horizontal Violin Plot')
plt.show()

3. 分组小提琴图

python 复制代码
## 分组小提琴图
# 创建分组数据
np.random.seed(42)
df_grouped = pd.DataFrame({
    'Value': np.concatenate([
        np.random.normal(0, 1, 100),
        np.random.normal(1, 1, 100),
        np.random.normal(0, 1.5, 100),
        np.random.normal(1, 1.5, 100)
    ]),
    'Category': ['A'] * 200 + ['B'] * 200,
    'Subcategory': ['X'] * 100 + ['Y'] * 100 + ['X'] * 100 + ['Y'] * 100
})

# 分组小提琴图
plt.figure(figsize=(12, 6))
sns.violinplot(data=df_grouped, x='Category', y='Value', hue='Subcategory',
               palette='Set2', split=True, inner='quartile')
plt.title('Grouped Violin Plot')
plt.legend(title='Subcategory')
plt.show()

**4.**小提琴图与箱型图对比

python 复制代码
## 小提琴图与箱型图对比
# 对比小提琴图和箱形图
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# 小提琴图
sns.violinplot(data=df, x='Category', y='Value', ax=ax1)
ax1.set_title('Violin Plot')

# 箱形图
sns.boxplot(data=df, x='Category', y='Value', ax=ax2)
ax2.set_title('Box Plot')

plt.tight_layout()
plt.show()
相关推荐
郑同学zxc几秒前
机器学习19-tensorflow4.2
人工智能·机器学习
zxsz_com_cn5 分钟前
设备预测性维护方案设计的关键要素
大数据·人工智能
格林威6 分钟前
工业相机参数解析:曝光时间与运动模糊的“生死博弈”
c++·人工智能·数码相机·opencv·算法·计算机视觉·工业相机
KG_LLM图谱增强大模型11 分钟前
EICopilot:基于LLM智能体和大规模知识图谱的企业信息智能搜索与探索系统
人工智能·知识图谱
GISer_Jing13 分钟前
阿里开源纯前端浏览器自动化 PageAgent,[特殊字符] 浏览器自动化变天啦?
前端·人工智能·自动化·aigc·交互
大模型任我行24 分钟前
腾讯:揭示评估幻觉并构建知识驱动新范式
人工智能·语言模型·自然语言处理·论文笔记
LaughingZhu1 小时前
Product Hunt 每日热榜 | 2026-03-21
人工智能·经验分享·深度学习·神经网络·产品运营
qzhqbb1 小时前
差分隐私与大模型+差分隐私在相关领域应用的论文总结
人工智能·算法
一招定胜负1 小时前
基于通义千问 API 的课堂话语智能分类分析工具实现
人工智能·分类·数据挖掘
阿_旭1 小时前
基于YOLO26深度学习的【桃子成熟度检测与分割系统】【python源码+Pyqt5界面+数据集+训练代码】图像分割、人工智能
人工智能·python·深度学习·桃子成熟度检测