tidyverse-数据可视化 - 图形的分层语法

1. ggplot2 的基本概念

ggplot2 是一个基于 R 的数据可视化包,它基于"图形的分层语法"(grammar of graphics)。这意味着你可以通过组合不同的图层和组件来构建复杂的图形。

核心组件:
  1. 数据(Data):你要可视化的数据集。
  2. 美学映射(Aesthetics):将数据变量映射到图形的视觉属性(如颜色、形状、大小等)。
  3. 几何对象(Geometric Objects, Geoms):决定数据如何显示(如点、线、柱状图等)。
  4. 统计变换(Statistical Transformations, Stats):对数据进行计算或转换(如计数、拟合模型等)。
  5. 位置调整(Position Adjustments):调整几何对象的位置(如堆叠、并排、抖动等)。
  6. 坐标系(Coordinate Systems):决定数据在图形中的位置和比例(如笛卡尔坐标系、极坐标系等)。
  7. 刻面(Facets):将数据拆分为多个子图,便于比较不同子集。
  8. 主题(Theme):控制图形的整体外观(如字体、颜色、背景等)。

2. 美学映射(Aesthetics)

美学映射是将数据变量映射到图形的视觉属性。例如,你可以将一个数值变量映射到 x 轴,另一个数值变量映射到 y 轴,还可以将分类变量映射到颜色或形状。

示例代码:
R 复制代码
library(ggplot2)

# 数据集 mpg
ggplot(mpg, aes(x = displ, y = hwy, color = class)) + 
  geom_point()  # 使用颜色美学映射
解释:
  • ggplot(mpg, aes(x = displ, y = hwy, color = class))
    • mpg 是数据集。
    • aes() 定义了美学映射:displ 映射到 x 轴,hwy 映射到 y 轴,class 映射到颜色。
  • geom_point():添加点几何对象,绘制散点图。

3. 几何对象(Geometric Objects)

几何对象决定了数据如何显示。不同的几何对象可以揭示数据的不同特征。

示例代码:
R 复制代码
# 散点图
ggplot(mpg, aes(x = displ, y = hwy)) + 
  geom_point()  # 点几何对象

# 平滑曲线图
ggplot(mpg, aes(x = displ, y = hwy)) + 
  geom_smooth()  # 平滑曲线几何对象
解释:
  • geom_point():绘制散点图。
  • geom_smooth():绘制平滑曲线,用于显示数据的趋势。

4. 刻面(Facets)

刻面用于将数据拆分为多个子图,便于比较不同子集。

示例代码:
R 复制代码
# 根据 cyl 分面
ggplot(mpg, aes(x = displ, y = hwy)) + 
  geom_point() +
  facet_wrap(~ cyl)  # 单变量分面

# 根据 drv 和 cyl 分面
ggplot(mpg, aes(x = displ, y = hwy)) + 
  geom_point() +
  facet_grid(drv ~ cyl)  # 双变量分面
解释:
  • facet_wrap(~ cyl):根据 cyl 变量将数据拆分为多个子图。
  • facet_grid(drv ~ cyl):根据 drvcyl 的组合将数据拆分为多个子图。

5. 统计变换(Statistical Transformations)

统计变换用于对数据进行计算或转换。例如,geom_bar() 默认使用 stat_count 计算每个类别的计数。

示例代码:
R 复制代码
# 条形图
ggplot(diamonds, aes(x = cut)) + 
  geom_bar()  # 默认使用 stat_count

# 自定义统计变换
ggplot(diamonds, aes(x = cut, y = after_stat(prop), group = 1)) + 
  geom_bar()  # 显示比例而不是计数
解释:
  • geom_bar():默认使用 stat_count 计算每个类别的计数。
  • after_stat(prop):使用统计变换计算比例。

6. 位置调整(Position Adjustments)

位置调整用于控制几何对象的位置,避免重叠或更好地展示数据。

示例代码:
R 复制代码
# 堆叠条形图
ggplot(mpg, aes(x = drv, fill = class)) + 
  geom_bar()  # 默认堆叠

# 并排条形图
ggplot(mpg, aes(x = drv, fill = class)) + 
  geom_bar(position = "dodge")  # 并排显示

# 抖动散点图
ggplot(mpg, aes(x = displ, y = hwy)) + 
  geom_jitter()  # 避免点重叠
解释:
  • position = "dodge":将重叠的对象并排放置。
  • geom_jitter():在散点图中添加随机噪声,避免数据点重叠。

7. 坐标系(Coordinate Systems)

坐标系决定了数据在图形中的位置和比例。

示例代码:
R 复制代码
# 极坐标
ggplot(diamonds, aes(x = clarity, fill = clarity)) + 
  geom_bar() +
  coord_polar()  # 使用极坐标
解释:
  • coord_polar():将数据转换为极坐标,可用于绘制饼图或 Coxcomb 图。

8. 练习

现在,让我们通过一些练习来巩固这些知识!

练习 1:创建一个散点图,将 mpg 数据集中的 displ 映射到 x 轴,hwy 映射到 y 轴,并将 class 映射到颜色。
R 复制代码
ggplot(mpg, aes(x = displ, y = hwy, color = class)) + 
  geom_point()
练习 2:创建一个条形图,显示 diamonds 数据集中不同 cut 的数量。
R 复制代码
ggplot(diamonds, aes(x = cut)) + 
  geom_bar()
练习 3:根据 drvcyl 分面,创建一个散点图。
R 复制代码
ggplot(mpg, aes(x = displ, y = hwy)) + 
  geom_point() +
  facet_grid(drv ~ cyl)
练习 4:创建一个平滑曲线图,并将 drv 映射到线型。
R 复制代码
ggplot(mpg, aes(x = displ, y = hwy, linetype = drv)) + 
  geom_smooth()
练习 5:创建一个饼图,显示 diamonds 数据集中不同 clarity 的比例。
R 复制代码
ggplot(diamonds, aes(x = "", fill = clarity)) + 
  geom_bar(width = 1) +
  coord_polar(theta = "y")

总结

通过这些示例和练习,你应该能够理解 ggplot2 的基本概念,并能够创建各种类型的图形。如果你有任何问题,随时问我!

相关推荐
阿虎儿29 分钟前
Python List 详解
python
凤凰AI1 小时前
Python知识点4-嵌套循环&break和continue使用&死循环
开发语言·前端·python
Dxy12393102161 小时前
Python适配器模式详解:让不兼容的接口协同工作
开发语言·python·适配器模式
mortimer1 小时前
音视频字幕同步 之 从“理想模型”到“工程现实”的进化之路
python·ffmpeg·音视频开发
过往入尘土3 小时前
PyCharm高效入门指南
ide·python·pycharm
站大爷IP3 小时前
Python数字处理:从基础到进阶的实用指南
python
秋秋棠3 小时前
MyBatis Plus高效开发指南
开发语言·python·mybatis
pk_xz1234563 小时前
基于机器视觉的迈克耳孙干涉环自动计数系统设计与实现
网络·python·深度学习·数据挖掘·机器人
Reggie_L3 小时前
JVM-Java
java·jvm·python
阿里云大数据AI技术4 小时前
【新模型速递】PAI-Model Gallery云上一键部署Kimi K2模型
大数据·人工智能·数据分析