绘制板块层级图

目录

【实验目的】

【实验原理】

【实验环境】

【实验步骤】

【实验总结】

【实验目的】

  1. 掌握数据文件读取
  2. 掌握数据处理的方法
  3. 实现板块层级图的绘制

【实验原理】

板块层级图(treemap)是一种基于面积的可视化方式,通过每一个板块(通常为矩形)的尺寸大小进行度量。外部矩形代表父类别,而内部矩形代表子类别。我们也可以通过板块层级图简单的呈现比例关系,不过它更擅于呈现树状结构的数据。

读取绘图所用的数据,并对数据进行处理将数据处理成我们可以使用的形式,绘制板块层级图,设置标签和标题。

【实验环境】

OS:win10

python:v3.8

【实验步骤】

一、安装pandas、matplotlib、seaborn、squarify

输入命令 pip install pandas/matplotlib/seaborn/squarify

二、读取数据

在这里我们使用pandas库中的read_csv函数来读取这3个数据文件。

python 复制代码
import pandas as pd

products_df=pd.read_csv("D:\\数据可视化\\第四章实验\\products.csv")
aiseles_df=pd.read_csv("D:\\数据可视化\\第四章实验\\aisles.csv")
departments_df=pd.read_csv("D:\\数据可视化\\第四章实验\\departments.csv")
# 打印数据集的前几行
print(departments_df.head().to_csv(sep='\t', na_rep='nan'))

数据读取的结果为:

三、数据处理

我们需要根据源表对目标表进行匹配查询,使用merge函数进行操作。

python 复制代码
import pandas as pd

products_df = pd.read_csv("D:\\数据可视化\\第四章实验\\products.csv")
aisles_df = pd.read_csv("D:\\数据可视化\\第四章实验\\aisles.csv")
departments_df = pd.read_csv("D:\\数据可视化\\第四章实验\\departments.csv")
# 打印数据集的前几行
# print(departments_df.head().to_csv(sep='\t', na_rep='nan'))

order_products_prior_df = pd.merge(products_df, aisles_df, on='aisle_id', how='left')
order_products_prior_df = pd.merge(order_products_prior_df, departments_df, on='department_id', how='left')
order_products_prior_df.head()
temp = order_products_prior_df[['product_name', 'aisle', 'department']]
temp = pd.concat([
    order_products_prior_df.groupby('department')['product_name'].nunique().rename('products_department'),
    order_products_prior_df.groupby('department')['aisle'].nunique().rename('aisle_department')
], axis=1).reset_index()
temp = temp.set_index('department')
temp2 = temp.sort_values(by="aisle_department", ascending=False)

# 添加打印语句输出匹配结果
print(temp2)

进行匹配操作后的数据:

四、绘制板块层级图

python 复制代码
import matplotlib.colors
import squarify

cmap = matplotlib.cm.viridis
mini, maxi = temp2.products_department.min(), temp2.products_department.max()
norm = matplotlib.colors.Normalize(vmin=mini, vmax=maxi)
colors = [cmap(norm(value)) for value in temp2.products_department]
colors[1] = "#FBFCFE"
labels = ["%s\n%d aisle num\n%d products num" % label for label in
          zip(temp2.index, temp2.aisle_department, temp2.products_department)]
fig = plt.figure(figsize=(12, 10))
ax = fig.add_subplot(111, aspect="equal")
ax = squarify.plot(temp2.aisle_department, color=colors, label=labels, ax=ax, alpha=.7)
plt.show()

绘制结果:

python 复制代码
# 设置x、y轴的属性:
ax.set_xticks([])
ax.set_yticks([])
#添加图表标题:
fig.suptitle("How are aisles organized within departments",fontsize=20)
#添加数据标签
img=plt.imshow([temp2.products_department],cmap=cmap)
img.set_visible(False)
fig.colorbar(img,orientation="vertical",shrink=.96)
fig.text(.76,.9,"numbers of products",fontsize=14)
plt.show()

板块层级图效果如下:

参考如下绘图代码,实现该板块层级图的绘制,并尽可能多地总结代码中所蕴含地中手电。

python 复制代码
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib
import squarify

# 设置链式赋值警告为不显示
pd.options.mode.chained_assignment = None

# 读取相关数据文件
products_df = pd.read_csv('D:\\数据可视化\\第四章实验\\products.csv')
aisles_df = pd.read_csv('D:\\数据可视化\\第四章实验\\aisles.csv')
departments_df = pd.read_csv('D:\\数据可视化\\第四章实验\\departments.csv')

# 合并数据
order_products_prior_df = pd.merge(products_df, aisles_df, on='aisle_id', how='left')
order_products_prior_df = pd.merge(order_products_prior_df, departments_df, on='department_id', how='left')
order_products_prior_df.head()

# 提取相关列并进行聚合操作
temp = order_products_prior_df[['product_name', 'aisle', 'department']]
temp = pd.concat([
    order_products_prior_df.groupby('department')['product_name'].nunique().rename('products_department'),
    order_products_prior_df.groupby('department')['aisle'].nunique().rename('aisle_department')
], axis=1).reset_index()
temp = temp.set_index('department')
temp2 = temp.sort_values(by="aisle_department", ascending=False)

# 打印中间结果
print(temp)
print(temp2)

# 设置一些绘图相关的初始变量(这里x、y、width、height未在后续代码中实际使用,可根据需求调整或删除)
x = 0
y = 0
width = 100
height = 100

# 设置颜色映射相关
cmap = matplotlib.cm.viridis
mini, maxi = temp2.products_department.min(), temp2.products_department.max()
norm = matplotlib.colors.Normalize(vmin=mini, vmax=maxi)
colors = [cmap(norm(value)) for value in temp2.products_department]
colors[1] = "#FBFCFE"

# 生成标签
labels = ["%s\n%d aisle num\n%d products num" % label for label in
          zip(temp2.index, temp2.aisle_department, temp2.products_department)]

# 创建图形和子图
fig = plt.figure(figsize=(12, 10))
ax = fig.add_subplot(111, aspect="equal")

# 绘制树形图
ax = squarify.plot(temp2.aisle_department, color=colors, label=labels, ax=ax, alpha=.7)

# 添加图形标题
fig.suptitle("How are aisles organized within departments", fontsize=20)

# 去除坐标轴刻度
ax.set_xticks([])
ax.set_yticks([])

# 添加颜色条相关设置
img = plt.imshow([temp2.products_department], cmap=cmap)
img.set_visible(False)
fig.colorbar(img, orientation="vertical", shrink=.96)
fig.text(.76, .9, "numbers of products", fontsize=14)

# 显示图形
plt.show()

代码中蕴含的知识点:

  1. 库的导入与使用
  • pandas:用于数据处理和分析。

    • pd.read_csv():从 CSV 文件中读取数据并创建DataFrame对象。

    • pd.merge():将两个或多个DataFrame按照指定的列进行合并,支持不同的合并方式(如leftrightinner等)。

    • DataFrame.groupby():根据指定的列对数据进行分组,可用于后续的聚合操作。

    • DataFrame.nunique():计算每列中唯一值的数量。

    • pd.concat():将多个SeriesDataFrame沿着指定的轴进行拼接。

    • DataFrame.set_index():将指定的列设置为DataFrame的索引。

    • DataFrame.sort_values():根据指定列的值对DataFrame进行排序。

  • matplotlib.pyplot:Python 中常用的绘图库,用于创建各种静态、交互式的图表。

    • plt.figure():创建一个新的图形窗口。

    • plt.add_subplot():在图形窗口中添加子图。

    • plt.imshow():显示图像,这里用于创建颜色条。

    • plt.colorbar():为图形添加颜色条。

    • plt.text():在图形中添加文本注释。

    • plt.show():显示绘制好的图形。

  • seaborn :基于matplotlib的统计数据可视化库,这里主要用于设置颜色调色板。

    • sns.color_palette():返回一个颜色调色板。
  • matplotlib:Python 中强大的绘图库,提供了丰富的绘图功能和工具。

    • matplotlib.cm.viridis:一个颜色映射对象,用于将数值映射到颜色。

    • matplotlib.colors.Normalize():用于将数据值归一化到指定的范围。

  • squarify:用于绘制树形图(Treemap)的库。

    • squarify.plot():根据给定的数据绘制树形图。
  1. 数据处理与分析
  • 数据读取 :使用pd.read_csv()函数从 CSV 文件中读取数据,并将其存储为DataFrame对象。

  • 数据合并 :使用pd.merge()函数将多个DataFrame按照指定的列进行合并,以便进行后续的分析。

  • 数据聚合 :使用groupby()nunique()方法对数据进行分组并计算唯一值的数量,从而得到每个部门的产品数量和通道数量。

  • 数据排序 :使用sort_values()方法根据指定列的值对DataFrame进行排序,以便更好地展示数据。

  1. 数据可视化
  • 树形图绘制 :使用squarify.plot()函数绘制树形图,展示每个部门的通道数量,并根据产品数量对树形图的颜色进行映射。

  • 颜色映射 :使用matplotlib.cm.viridis颜色映射对象和matplotlib.colors.Normalize()函数将产品数量映射到颜色,增强可视化效果。

  • 图形设置 :使用plt.figure()plt.add_subplot()等函数创建图形窗口和子图,并设置图形的大小、标题、坐标轴刻度等属性。

  • 颜色条添加 :使用plt.imshow()plt.colorbar()函数添加颜色条,用于说明颜色与产品数量之间的对应关系。

代码运行结果展示:

【实验总结】

本次实验围绕绘制板块层级图展开,涵盖数据读取、处理以及可视化等关键环节。在实验中我们成功掌握了数据文件读取、处理方法以及板块层级图的绘制。通过pandas库的read_csv函数读取数据文件,利用mergegroupbynunique等函数对数据进行处理和聚合操作,最终使用squarify库绘制出板块层级图,并对图形进行了美化。

我们深入理解了板块层级图的原理和应用场景,其基于面积可视化,能有效展示树状结构数据和比例关系。熟练掌握了多个 Python 库的使用,包括pandas用于数据处理与分析、matplotlibseaborn用于数据可视化基础设置、squarify用于绘制板块层级图 。学会了处理数据的技巧,如数据合并、分组聚合、排序等,以及设置图形属性、添加标题、标签和颜色条等可视化操作34

相关推荐
zandy10119 分钟前
最佳实践-HENGSHI SENSE 可视化创作中如何引入数据集市的成果
信息可视化·数据挖掘·数据分析
云天徽上1 小时前
【数据可视化-41】15年NVDA, AAPL, MSFT, GOOGL & AMZ股票数据集可视化分析
人工智能·机器学习·信息可视化·数据挖掘·数据分析
qq_436962181 小时前
奥威BI+AI数据分析解决方案
人工智能·数据挖掘·数据分析·ai数据分析
小白—人工智能2 小时前
数据可视化 —— 直方图
python·信息可视化·数据可视化
云天徽上2 小时前
【数据可视化-42】杂货库存数据集可视化分析
人工智能·机器学习·信息可视化·数据挖掘·数据分析
databook6 小时前
『Plotly实战指南』--交互功能基础篇
python·数据分析·数据可视化
aiweker7 小时前
数据分析(四):Python Pandas数据输入输出全流程指南
python·数据分析·pandas
Leo.yuan15 小时前
数据仓库建设全解析!
大数据·数据库·数据仓库·数据分析·spark
Excel_easy20 小时前
插入html文件,让数据可视化彰显高端大气-Excel易用宝
信息可视化