目录
【实验目的】
- 掌握数据文件读取
- 掌握数据处理的方法
- 实现板块层级图的绘制
【实验原理】
板块层级图(treemap)是一种基于面积的可视化方式,通过每一个板块(通常为矩形)的尺寸大小进行度量。外部矩形代表父类别,而内部矩形代表子类别。我们也可以通过板块层级图简单的呈现比例关系,不过它更擅于呈现树状结构的数据。
读取绘图所用的数据,并对数据进行处理将数据处理成我们可以使用的形式,绘制板块层级图,设置标签和标题。
【实验环境】
OS:win10
python:v3.8
【实验步骤】
一、安装pandas、matplotlib、seaborn、squarify
输入命令 pip install pandas/matplotlib/seaborn/squarify



二、读取数据
在这里我们使用pandas库中的read_csv函数来读取这3个数据文件。
python
import pandas as pd
products_df=pd.read_csv("D:\\数据可视化\\第四章实验\\products.csv")
aiseles_df=pd.read_csv("D:\\数据可视化\\第四章实验\\aisles.csv")
departments_df=pd.read_csv("D:\\数据可视化\\第四章实验\\departments.csv")
# 打印数据集的前几行
print(departments_df.head().to_csv(sep='\t', na_rep='nan'))
数据读取的结果为:

三、数据处理
我们需要根据源表对目标表进行匹配查询,使用merge函数进行操作。
python
import pandas as pd
products_df = pd.read_csv("D:\\数据可视化\\第四章实验\\products.csv")
aisles_df = pd.read_csv("D:\\数据可视化\\第四章实验\\aisles.csv")
departments_df = pd.read_csv("D:\\数据可视化\\第四章实验\\departments.csv")
# 打印数据集的前几行
# print(departments_df.head().to_csv(sep='\t', na_rep='nan'))
order_products_prior_df = pd.merge(products_df, aisles_df, on='aisle_id', how='left')
order_products_prior_df = pd.merge(order_products_prior_df, departments_df, on='department_id', how='left')
order_products_prior_df.head()
temp = order_products_prior_df[['product_name', 'aisle', 'department']]
temp = pd.concat([
order_products_prior_df.groupby('department')['product_name'].nunique().rename('products_department'),
order_products_prior_df.groupby('department')['aisle'].nunique().rename('aisle_department')
], axis=1).reset_index()
temp = temp.set_index('department')
temp2 = temp.sort_values(by="aisle_department", ascending=False)
# 添加打印语句输出匹配结果
print(temp2)
进行匹配操作后的数据:

四、绘制板块层级图
python
import matplotlib.colors
import squarify
cmap = matplotlib.cm.viridis
mini, maxi = temp2.products_department.min(), temp2.products_department.max()
norm = matplotlib.colors.Normalize(vmin=mini, vmax=maxi)
colors = [cmap(norm(value)) for value in temp2.products_department]
colors[1] = "#FBFCFE"
labels = ["%s\n%d aisle num\n%d products num" % label for label in
zip(temp2.index, temp2.aisle_department, temp2.products_department)]
fig = plt.figure(figsize=(12, 10))
ax = fig.add_subplot(111, aspect="equal")
ax = squarify.plot(temp2.aisle_department, color=colors, label=labels, ax=ax, alpha=.7)
plt.show()
绘制结果:

python
# 设置x、y轴的属性:
ax.set_xticks([])
ax.set_yticks([])
#添加图表标题:
fig.suptitle("How are aisles organized within departments",fontsize=20)
#添加数据标签
img=plt.imshow([temp2.products_department],cmap=cmap)
img.set_visible(False)
fig.colorbar(img,orientation="vertical",shrink=.96)
fig.text(.76,.9,"numbers of products",fontsize=14)
plt.show()
板块层级图效果如下:
参考如下绘图代码,实现该板块层级图的绘制,并尽可能多地总结代码中所蕴含地中手电。
python
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib
import squarify
# 设置链式赋值警告为不显示
pd.options.mode.chained_assignment = None
# 读取相关数据文件
products_df = pd.read_csv('D:\\数据可视化\\第四章实验\\products.csv')
aisles_df = pd.read_csv('D:\\数据可视化\\第四章实验\\aisles.csv')
departments_df = pd.read_csv('D:\\数据可视化\\第四章实验\\departments.csv')
# 合并数据
order_products_prior_df = pd.merge(products_df, aisles_df, on='aisle_id', how='left')
order_products_prior_df = pd.merge(order_products_prior_df, departments_df, on='department_id', how='left')
order_products_prior_df.head()
# 提取相关列并进行聚合操作
temp = order_products_prior_df[['product_name', 'aisle', 'department']]
temp = pd.concat([
order_products_prior_df.groupby('department')['product_name'].nunique().rename('products_department'),
order_products_prior_df.groupby('department')['aisle'].nunique().rename('aisle_department')
], axis=1).reset_index()
temp = temp.set_index('department')
temp2 = temp.sort_values(by="aisle_department", ascending=False)
# 打印中间结果
print(temp)
print(temp2)
# 设置一些绘图相关的初始变量(这里x、y、width、height未在后续代码中实际使用,可根据需求调整或删除)
x = 0
y = 0
width = 100
height = 100
# 设置颜色映射相关
cmap = matplotlib.cm.viridis
mini, maxi = temp2.products_department.min(), temp2.products_department.max()
norm = matplotlib.colors.Normalize(vmin=mini, vmax=maxi)
colors = [cmap(norm(value)) for value in temp2.products_department]
colors[1] = "#FBFCFE"
# 生成标签
labels = ["%s\n%d aisle num\n%d products num" % label for label in
zip(temp2.index, temp2.aisle_department, temp2.products_department)]
# 创建图形和子图
fig = plt.figure(figsize=(12, 10))
ax = fig.add_subplot(111, aspect="equal")
# 绘制树形图
ax = squarify.plot(temp2.aisle_department, color=colors, label=labels, ax=ax, alpha=.7)
# 添加图形标题
fig.suptitle("How are aisles organized within departments", fontsize=20)
# 去除坐标轴刻度
ax.set_xticks([])
ax.set_yticks([])
# 添加颜色条相关设置
img = plt.imshow([temp2.products_department], cmap=cmap)
img.set_visible(False)
fig.colorbar(img, orientation="vertical", shrink=.96)
fig.text(.76, .9, "numbers of products", fontsize=14)
# 显示图形
plt.show()
代码中蕴含的知识点:
- 库的导入与使用
-
pandas
:用于数据处理和分析。-
pd.read_csv()
:从 CSV 文件中读取数据并创建DataFrame
对象。 -
pd.merge()
:将两个或多个DataFrame
按照指定的列进行合并,支持不同的合并方式(如left
、right
、inner
等)。 -
DataFrame.groupby()
:根据指定的列对数据进行分组,可用于后续的聚合操作。 -
DataFrame.nunique()
:计算每列中唯一值的数量。 -
pd.concat()
:将多个Series
或DataFrame
沿着指定的轴进行拼接。 -
DataFrame.set_index()
:将指定的列设置为DataFrame
的索引。 -
DataFrame.sort_values()
:根据指定列的值对DataFrame
进行排序。
-
-
matplotlib.pyplot
:Python 中常用的绘图库,用于创建各种静态、交互式的图表。-
plt.figure()
:创建一个新的图形窗口。 -
plt.add_subplot()
:在图形窗口中添加子图。 -
plt.imshow()
:显示图像,这里用于创建颜色条。 -
plt.colorbar()
:为图形添加颜色条。 -
plt.text()
:在图形中添加文本注释。 -
plt.show()
:显示绘制好的图形。
-
-
seaborn
:基于matplotlib
的统计数据可视化库,这里主要用于设置颜色调色板。sns.color_palette()
:返回一个颜色调色板。
-
matplotlib
:Python 中强大的绘图库,提供了丰富的绘图功能和工具。-
matplotlib.cm.viridis
:一个颜色映射对象,用于将数值映射到颜色。 -
matplotlib.colors.Normalize()
:用于将数据值归一化到指定的范围。
-
-
squarify
:用于绘制树形图(Treemap)的库。squarify.plot()
:根据给定的数据绘制树形图。
- 数据处理与分析
-
数据读取 :使用
pd.read_csv()
函数从 CSV 文件中读取数据,并将其存储为DataFrame
对象。 -
数据合并 :使用
pd.merge()
函数将多个DataFrame
按照指定的列进行合并,以便进行后续的分析。 -
数据聚合 :使用
groupby()
和nunique()
方法对数据进行分组并计算唯一值的数量,从而得到每个部门的产品数量和通道数量。 -
数据排序 :使用
sort_values()
方法根据指定列的值对DataFrame
进行排序,以便更好地展示数据。
- 数据可视化
-
树形图绘制 :使用
squarify.plot()
函数绘制树形图,展示每个部门的通道数量,并根据产品数量对树形图的颜色进行映射。 -
颜色映射 :使用
matplotlib.cm.viridis
颜色映射对象和matplotlib.colors.Normalize()
函数将产品数量映射到颜色,增强可视化效果。 -
图形设置 :使用
plt.figure()
、plt.add_subplot()
等函数创建图形窗口和子图,并设置图形的大小、标题、坐标轴刻度等属性。 -
颜色条添加 :使用
plt.imshow()
和plt.colorbar()
函数添加颜色条,用于说明颜色与产品数量之间的对应关系。
代码运行结果展示:



【实验总结】
本次实验围绕绘制板块层级图展开,涵盖数据读取、处理以及可视化等关键环节。在实验中我们成功掌握了数据文件读取、处理方法以及板块层级图的绘制。通过pandas
库的read_csv
函数读取数据文件,利用merge
、groupby
、nunique
等函数对数据进行处理和聚合操作,最终使用squarify
库绘制出板块层级图,并对图形进行了美化。
我们深入理解了板块层级图的原理和应用场景,其基于面积可视化,能有效展示树状结构数据和比例关系。熟练掌握了多个 Python 库的使用,包括pandas
用于数据处理与分析、matplotlib
和seaborn
用于数据可视化基础设置、squarify
用于绘制板块层级图 。学会了处理数据的技巧,如数据合并、分组聚合、排序等,以及设置图形属性、添加标题、标签和颜色条等可视化操作34