Python 数据可视化 boxplot

Python 数据可视化 boxplot

python 复制代码
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns


# 读取 TSV 文件
df = pd.read_csv('result.tsv', sep='\t')

normal_df = df[df["sample_name"].str.contains("normal")]
tumor_df = df[df["sample_name"].str.contains("tumor")]


# sns.boxplot(x='down_level', y='loci_median_depth', data=tumor_df)
# sns.boxplot(x='down_level', y='loci_average_depth', data=tumor_df)




def box_plot_1(df):
    # 提取数据
    sample_data = {}
    # 遍历 DataFrame,根据样本和级别组织数据
    for index, row in df.iterrows():
        sample = row['sample_name']
        level = row['down_level']
        data = row['loci_median_depth']  # 这里假设你想绘制 loci_median_depth 列的箱线图
        
        # 如果样本不在字典中,则将其添加为新的键,并将数据存储为列表
        if sample not in sample_data:
            sample_data[sample] = {}
        if level not in sample_data[sample]:
            sample_data[sample][level] = []
        sample_data[sample][level].append(data)

    # 绘制箱线图
    plt.figure(figsize=(100, 60))

    # 遍历样本和级别,绘制箱线图
    position = 1
    for sample, levels in sample_data.items():
        for level, data in levels.items():
            label = f"{sample} - {level}"
            plt.boxplot(data, positions=[position], labels=[label])
            position += 1

    plt.ylabel('Depth')
    plt.title('Box Plot of Depth Data by Sample and Level')
    plt.grid(True)
    plt.xticks(rotation=45)
    # 保存箱线图为文件
    plt.savefig('boxplot.png')
    plt.show()

def box_plot_2(df, target_header_list):
    lvl_list = ["ori", '40', '36', '32', '28', '24', '20']
    for level_to_plot in lvl_list:
        filtered_df = df[df['down_level'] == level_to_plot]
        plt.figure(figsize=(20, 15))
        # plt.boxplot(filtered_df[' loci_median_depth'])
        plt.boxplot([filtered_df[i] for i in target_header_list], labels=target_header_list)

        plt.ylabel('Depth')
        # plt.xlabel(level_to_plot)
        plt.title(f'Box Plot of Depth Data for {level_to_plot} Level')
        plt.grid(True)
        plt.xticks(rotation=45)
        # 在箱线图上绘制每个数据点
        for i, col in enumerate(target_header_list):
            x = [i + 1] * len(filtered_df[col])
            plt.plot(x, filtered_df[col], 'ro', alpha=0.5)

        # 保存箱线图为文件
        plt.savefig(f'boxplot_{level_to_plot}.png')
        # 显示箱线图
        plt.show()


def box_plot_3(df, target_header_list):
    # 选择要包含在 y 轴中的列
    y_columns = target_header_list
    # 将这些列数据整合到一个单独的 DataFrame 中
    y_data = df[y_columns]

    # 使用 pd.melt() 函数将其转换为适合绘制箱线图的格式
    melted_df = pd.melt(df, id_vars=['down_level'], value_vars=y_columns, var_name='Depth_Type', value_name='Depth')
    # 使用 seaborn 绘制箱线图
    plt.figure(figsize=(12, 8))
    sns.boxplot(x='down_level', y='Depth', hue='Depth_Type', data=melted_df, dodge=True)
    plt.xlabel('Down Level (G)')
    plt.ylabel('Depth')
    plt.title('Box Plot of Depth Data by Down Level')
    plt.legend(title='Depth Type', loc='upper right')
    plt.grid(True)

    plt.savefig(f'boxplot.png')
    print()


lvl_list = ["ori", '40', '36', '32', '28', '24', '20']

target_header_list = ["loci_median_depth", "loci_average_depth", "dedup_loci_median_depth", "dedup_loci_average_depth", "average_depth", "median_depth", "dedup_average_depth", "dedup_median_depth"]


# box_plot(tumor_df, target_header_list)
# box_plot_3(normal_df, target_header_list)
# box_plot_2(normal_df, target_header_list)
box_plot_3(normal_df, target_header_list)
# box_plot_1(normal_df)

box_plot_2

box_plot_3

参考:

https://blog.csdn.net/Artoria_QZH/article/details/102790740

R:https://www.modb.pro/db/451162

相关推荐
百锦再4 小时前
第18章 高级特征
android·java·开发语言·后端·python·rust·django
源码之家4 小时前
基于Python房价预测系统 数据分析 Flask框架 爬虫 随机森林回归预测模型、链家二手房 可视化大屏 大数据毕业设计(附源码)✅
大数据·爬虫·python·随机森林·数据分析·spark·flask
SalvoGao4 小时前
Python学习 | 怎么理解epoch?
数据结构·人工智能·python·深度学习·学习
楚疏笃5 小时前
纯Python 实现 Word 文档转换 Markdown
python·word
谅望者5 小时前
数据分析笔记08:Python编程基础-数据类型与变量
数据库·笔记·python·数据分析·概率论
mortimer5 小时前
【实战复盘】 PySide6 + PyTorch 偶发性“假死”?由多线程转多进程
pytorch·python·pyqt
清静诗意5 小时前
Django REST Framework(DRF)RESTful 最完整版实战教程
python·django·restful·drf
studytosky6 小时前
深度学习理论与实战:Pytorch基础入门
人工智能·pytorch·python·深度学习·机器学习
长不大的蜡笔小新6 小时前
手写数字识别:从零搭建神经网络
人工智能·python·tensorflow
前进的李工6 小时前
LeetCode hot100:094 二叉树的中序遍历:从递归到迭代的完整指南
python·算法·leetcode·链表·二叉树