《PySpark大数据分析实战》-26.数据可视化图表Seaborn介绍

📋 博主简介

  • 💖 作者简介:大家好,我是wux_labs。😜
    热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。
    通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。
    通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。
    对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究,对Databricks的使用有丰富的经验。
  • 📝 个人主页:wux_labs,如果您对我还算满意,请关注一下吧~🔥
  • 📝 个人社区:数据科学社区,如果您是数据科学爱好者,一起来交流吧~🔥
  • 🎉 请支持我:欢迎大家 点赞👍+收藏⭐️+吐槽📝,您的支持是我持续创作的动力~🔥

《PySpark大数据分析实战》-26.数据可视化图表Seaborn介绍

《PySpark大数据分析实战》-26.数据可视化图表Seaborn介绍

前言

大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第4节的内容:数据可视化图表Seaborn介绍。

图书在:当当京东机械工业出版社以及各大书店有售!

Python数据可视化工具介绍

数据可视化是一种提取有价值数据的有效方法,是数据分析和机器学习中非常重要的一环。它有助于提高分析效率,为机器学习模型提供可靠的数据基础。它可以帮助人们更直观地理解数据,更好地理解数据的趋势和变化,发现潜在的联系,从而帮助人们更好地构建机器学习模型,提高模型的准确性。此外,数据可视化可以帮助人们更好地发现数据中的噪声和异常。通过可视化,可以更容易地发现噪声数据和异常情况,从而减少机器学习模型的误差。常用的Python数据可视化工具包括Matplotlib、Seaborn、Pyecharts等。

Seaborn介绍

Seaborn是Python中一个基于Matplotlib的数据可视化库,对Matplotlib进行了二次封装,提供了一些高级接口,可以让人们轻松地绘制统计图形,以便更好地理解数据分布和趋势。Seaborn旨在以数据可视化为中心来挖掘与理解数据,它提供的面向数据集制图函数主要是对行列索引和数组的操作,包含对整个数据集进行内部的语义映射与统计整合,以此生成富于信息的图表。Seaborn被广泛应用于数据分析、数据挖掘、统计建模等领域,因为它在细节、可扩展性和文档性方面都表现的非常优秀。相比于Matplotlib,Seaborn可以帮助人们更快速地完成高级绘图,同时还有更加美观和规范的配色方案。

Seaborn内置了多个数据集,可以方便人们进行实验和练习,同时也方便在实际工作中快速加载数据进行可视化分析。Seaborn内置的一些数据集包括:

  • tips,餐厅顾客的消费账单数据集。
  • flights,美国航空公司国内航班乘客的数量统计数据集。
  • fmri,基于功能性磁共振成像(fMRI)技术收集的神经影像数据集。
  • iris,鸢尾花数据集,包含了鸢尾花的花萼长度、花萼宽度、花瓣长度和花瓣宽度。
  • diamonds,钻石数据集,包含了钻石的各项指标,例如重量、颜色、净度等。
  • titanic,泰坦尼克号数据集,包含了泰坦尼克号上乘客的各项信息,例如船舱等级、性别、年龄、生存情况等。

要在项目中使用Seaborn,需要在Python环境中安装Seaborn,命令如下:

bash 复制代码
$ pip install seaborn

在使用时需要在Python脚本中导入seaborn,代码如下:

python 复制代码
import seaborn as sns
绘制折线图

Seaborn提供了lineplot()方法来绘制折线图,lineplot()方法的主要参数有:

  • x,指定折线图的x轴数据。
  • y,指定折线图的y轴数据。
  • hue,指定分类变量,用于绘制不同颜色的线。
  • style,指定分类变量,用于绘制不同风格的线。
  • size,指定分类变量,用于绘制不同大小的线。
  • palette,指定调色板,用于设置线的颜色。
  • legend,指定是否显示图例。

在下面的案例中,使用Seaborn绘制了两幅折线图,代码如下:

python 复制代码
plt.subplot(1, 2, 1)
fmri = sns.load_dataset("fmri")
sns.lineplot(x="timepoint", y="signal", data=fmri)

plt.subplot(1, 2, 2)
x = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
y = [2, 3, 6, 4, 5, 8, 5, 9, 7, 10]
sns.lineplot(x=x, y=y)

plt.show()

执行代码,绘制的图形如图所示。

绘制柱状图

Seaborn提供了barplot()方法来绘制柱状图,barplot()方法的主要参数有:

  • x,指定要绘制的数据在DataFrame中的列名或标签,可以是单个变量或多个变量组成的列表。
  • y,指定要绘制的数据在DataFrame中的列名或标签,可以是单个变量或多个变量组成的列表。
  • data,指定要绘制图形的数据。
  • hue,指定一个或多个列名或标签,用于对数据进行分组,每组的数据会用不同的颜色或样式进行区分。

在下面的案例中,使用Seaborn绘制了两幅柱状图,代码如下:

python 复制代码
plt.subplot(1, 2, 1)
titanic = sns.load_dataset('titanic')
sns.barplot(x='sex', y='survived', hue='class', data=titanic)

plt.subplot(1, 2, 2)
categories = ['A', 'B', 'C', 'D', 'E']
values = [23, 45, 12, 34, 32]
sns.barplot(x=categories, y=values)

plt.show()

执行代码,绘制的图形如图所示。

绘制箱型图

Seaborn提供了boxplot()方法来绘制箱型图,boxplot()方法的主要参数有:

  • x, y,指定绘制箱型图的数据,可以是数组、Series或DataFrame等。
  • data,指定要绘制图形的数据。
  • order,可以指定分组变量的顺序。
  • hue_order,可以指定分组变量中各组的顺序。
  • orient,指定箱型图的方向,可以是垂直方向(v)或水平方向(h)。
  • color,指定箱型图中箱体和点的颜色。

在下面的案例中,使用Seaborn绘制了两幅箱型图,代码如下:

python 复制代码
plt.subplot(1, 2, 1)
tips = sns.load_dataset('tips')
sns.boxplot(x='day', y='total_bill', data=tips)

plt.subplot(1, 2, 2)
data = pd.DataFrame(np.random.randint(1, 100, (200, 5)))
sns.boxplot(data=data)

plt.show()

执行代码,绘制的图形如图所示。

结束语

好了,感谢大家的关注,今天就分享到这里了,更多详细内容,请阅读原书或持续关注专栏。

相关推荐
武子康13 小时前
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地
大数据·后端·apache hive
Duang14 小时前
从零推导指数估值模型 —— 一个三因子打分系统的设计思路
数据分析·领域驱动设计
大大大大晴天14 小时前
Flink生产问题排障-Kryo serializer scala extensions are not available
大数据·flink
武子康3 天前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
大数据·后端·apache hive
武子康4 天前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP4 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库4 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全
AI周红伟4 天前
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战
大数据·人工智能·大模型·智能体
B站计算机毕业设计超人4 天前
计算机毕业设计Django+Vue.js高考推荐系统 高考可视化 大数据毕业设计(源码+LW文档+PPT+详细讲解)
大数据·vue.js·hadoop·django·毕业设计·课程设计·推荐算法
计算机程序猿学长4 天前
大数据毕业设计-基于django的音乐网站数据分析管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)
大数据·django·课程设计