《PySpark大数据分析实战》-25.数据可视化图表Matplotlib介绍

📋 博主简介

  • 💖 作者简介:大家好,我是wux_labs。😜
    热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。
    通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。
    通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。
    对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究,对Databricks的使用有丰富的经验。
  • 📝 个人主页:wux_labs,如果您对我还算满意,请关注一下吧~🔥
  • 📝 个人社区:数据科学社区,如果您是数据科学爱好者,一起来交流吧~🔥
  • 🎉 请支持我:欢迎大家 点赞👍+收藏⭐️+吐槽📝,您的支持是我持续创作的动力~🔥

《PySpark大数据分析实战》-25.数据可视化图表Matplotlib介绍

《PySpark大数据分析实战》-25.数据可视化图表Matplotlib介绍

前言

大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第4节的内容:数据可视化图表Matplotlib介绍。

图书在:当当京东机械工业出版社以及各大书店有售!

Python数据可视化工具介绍

数据可视化是一种提取有价值数据的有效方法,是数据分析和机器学习中非常重要的一环。它有助于提高分析效率,为机器学习模型提供可靠的数据基础。它可以帮助人们更直观地理解数据,更好地理解数据的趋势和变化,发现潜在的联系,从而帮助人们更好地构建机器学习模型,提高模型的准确性。此外,数据可视化可以帮助人们更好地发现数据中的噪声和异常。通过可视化,可以更容易地发现噪声数据和异常情况,从而减少机器学习模型的误差。常用的Python数据可视化工具包括Matplotlib、Seaborn、Pyecharts等。

Matplotlib介绍

Matplotlib是一个Python 2D绘图库,用于绘制各种类型的图形,包括折线图、柱状图、饼图、散点图等。可以自定义图形的样式和属性,可以添加标签、标题、网格等元素,可以设置图形的大小、分辨率、颜色等属性。Matplotlib采用三层结构来组织图形:

1)容器层。容器层是指在Matplotlib图形中用于组织和管理图形元素的结构,通常包括画板(Canvas)、画布(Figure)、坐标系(Axes)等几个部分。画板是Matplotlib的图形容器,用于显示和交互Matplotlib图形,例如缩放、平移、选择、保存等。画布是Matplotlib中最顶层容器,用于组织所有的坐标系、图例(Legend)、标题(Title)等元素,是整个图形的最外层容器。坐标系是位于画布内部的容器,可以理解为一个具体的子图,用于组织所有的图形元素,例如线条、标记、图例等。

2)辅助显示层。辅助显示层是坐标系内除了根据数据绘制的图像以外的内容,用于在Matplotlib图形中添加额外的信息和标注,以提高图形的可读性和表现力。主要包括外观(Facecolor)、边框线(Spines)、坐标轴(Axis)、坐标轴名称(Axis Label)、坐标轴刻度(Tick)、坐标轴刻度标签(Tick Label)、网格线(Grid)、图例、标题等内容。

3)图像层。图像层指坐标系内通过plot()、scatter()、bar()、histogram()、pie()等函数根据数据绘制出的图像。

要在项目中使用Matplotlib,需要在Python环境中安装Matplotlib,命令如下:

python 复制代码
$ pip install matplotlib

在使用时需要在Python脚本中导入matplotlib,代码如下:

python 复制代码
import matplotlib.pyplot as plt
绘制折线图

折线图是Matplotlib中最基本的图形之一,Matplotlib提供了plot()方法用来绘制折线图,plot()方法的主要参数有:

  • x, y,x轴和y轴的值,可以是列表、数组、Series等类型的数据,如果只提供一个参数,则默认为y轴的值,x轴的值为数据索引或序列号。
  • inestyle,指定线条的样式,例如solid(实线)、dashed(虚线)、dashdot(点线)等。
  • linewidth,指定线条的宽度,数值类型,单位是像素。
  • color,指定线条的颜色。

在下面的案例中,定义了x轴和y轴的数据并绘制了折线图,代码如下:

python 复制代码
# 构造数据
x = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
y = [2, 3, 6, 4, 5, 8, 5, 9, 7, 10]
plt.plot(x, y)  # 绘制折线图
plt.show()  # 显示图形

执行代码,绘制的图形如图所示。

绘制柱状图

柱状图也是Matplotlib中最基本的图形之一,Matplotlib提供了bar()方法用来绘制柱状图,bar()方法的主要参数有:

  • x,柱状图的x坐标,可以是一个序列或数组,表示每个类别。
  • height,柱状图的高度,可以是一个序列或数组,表示每个柱子的高度。
  • width,柱状图的宽度,默认值为0.8。
  • bottom,柱状图底部的y坐标,可以是一个序列或数组,表示每个柱子底部的位置,用于绘制堆叠柱状图。
  • align,柱状图对齐方式,默认值为center,表示柱状图对齐于x坐标轴上的中心。
  • color,柱状图的颜色。

在下面的案例中,定义了5种类别及对应的值并绘制柱状图,代码如下:

python 复制代码
# 构造数据
categories = ['A', 'B', 'C', 'D', 'E']
values = [23, 45, 12, 34, 32]
plt.bar(x=categories, height=values)  # 绘制柱状图
plt.show()  # 显示图形

执行代码,绘制的图形如图所示。

绘制饼图

Matplotlib提供了pie()方法用来绘制饼图,pie()方法的主要参数有:

  • x,用于绘制饼图的数据,可以是一个列表、数组或者Series。
  • explode,指定各个部分的偏移量,用于突出某个部分,值为一个列表或数组。
  • labels,指定每个部分的标签,值为一个列表或数组。
  • colors,指定每个部分的颜色,值为一个列表或数组。
  • autopct,指定每个部分所占比例的显示方式,值为一个格式化字符串。
  • pctdistance,指定比例值和圆心的距离。
  • labeldistance,指定标签和圆心的距离。

在下面的案例中,定义了饼图的数据、颜色、显示方式等,并绘制出饼图,代码如下:

python 复制代码
data = [20, 30, 40, 25, 15]  # 构造数据
labels = ['A', 'B', 'C', 'D', 'E']  # 定义标签
explode = [0, 0.2, 0, 0, 0]  # 定义突出显示的切片
colors = ['#ff9999', '#66bbff', '#99ff99', '#ffcc99', '#ffccff']  # 定义颜色
plt.pie(x=data, explode=explode, labels=labels, colors=colors, autopct='%1.1f%%')  # 绘制饼图
plt.show()  # 显示图形

执行代码,绘制的图形如图所示。

结束语

好了,感谢大家的关注,今天就分享到这里了,更多详细内容,请阅读原书或持续关注专栏。

相关推荐
阿里云大数据AI技术2 小时前
ES Serverless 8.17王牌发布:向量检索「火力全开」,智能扩缩「秒级响应」!
大数据·运维·serverless
Mikhail_G2 小时前
Python应用变量与数据类型
大数据·运维·开发语言·python·数据分析
G皮T3 小时前
【Elasticsearch】映射:null_value 详解
大数据·elasticsearch·搜索引擎·映射·mappings·null_value
molunnnn3 小时前
day 18进行聚类,进而推断出每个簇的实际含义
机器学习·数据挖掘·聚类
大霸王龙4 小时前
软件工程的软件生命周期通常分为以下主要阶段
大数据·人工智能·旅游
nanzhuhe4 小时前
sql中group by使用场景
数据库·sql·数据挖掘
点赋科技4 小时前
沙市区举办资本市场赋能培训会 点赋科技分享智能消费新实践
大数据·人工智能
YSGZJJ5 小时前
股指期货技术分析与短线操作方法介绍
大数据·人工智能
Doker 多克5 小时前
Flink CDC —部署模式
大数据·flink
Guheyunyi5 小时前
监测预警系统重塑隧道安全新范式
大数据·运维·人工智能·科技·安全