利用R语言自带函数快速探索数据

《R Graphics Cookbook》 chapter2 Quickly Exploring Data 快速浏览数据

为了非常快速地浏览数据,有时使用 R 自带的绘图函数很有用

Creating a Scatter Plot 创建一个散点图

要制作散点图,请使用 plot() 并向其传递一个 x 值的向量,后跟一个 y 值的向量

mtcars 数据集为例

{r} 复制代码
plot(mtcars$wt, mtcars$mpg)

也可以使用函数 ggplot() 获得类似的结果

{r} 复制代码
library(ggplot2)

ggplot(mtcars, aes(x = wt, y = mpg)) +  # 第一部分:ggplot() ,告诉它创建一个绘图对象
  geom_point()                          # 第二部分:geom_point(),告诉它叠加一个点图

通常情况下,使用 ggplot() 方法是向它传递一个数据框(例如,mtcars ),然后告诉它哪些列用于 x 和 y 值。

如果你想用两个向量作为 x 和 y 值,则设置 data = NULL

请记住,ggplot2 最初设计是将数据框作为数据来源,而不是单个向量,

所以这种使用方式只能让您使用其功能的有限部分。

{r} 复制代码
ggplot(data = NULL, aes(x = mtcars$wt, y = mtcars$mpg)) +
  geom_point()

Creating a Line Graph 创建一个折线图

使用 plot() 制作折线图,向其传递 x、y 的向量,并设置 type = "l"

{r} 复制代码
plot(pressure$temperature, pressure$pressure, type = "l")

如果要添加点和/或多条线,首先把 plot() 放在第一行

然后再用 points() 添加点或者用 lines() 附加线

{r} 复制代码
plot(pressure$temperature, pressure$pressure, type = "l")
points(pressure$temperature, pressure$pressure)

lines(pressure$temperature, pressure$pressure/2, col = "red")
points(pressure$temperature, pressure$pressure/2, col = "red")

上述代码需要全选一起运行

可以使用 ggplot2,用 geom_line() 获得类似结果

{r} 复制代码
library(ggplot2)
ggplot(pressure, aes(x = temperature, y = pressure)) +
  geom_line()

ggplot(pressure, aes(x = temperature, y = pressure)) +
  geom_line() +
  geom_point()

Creating a Bar Graph 创建条形图

如果要画数值条形图:

使用 barplot() ,并将每个 bar 的高度值向量和(可选)每个条形图的标签向量传递给它
如果向量中的元素有名称,名称将自动用作标签

{r} 复制代码
BOD
#>   Time demand
#> 1    1    8.3
#> 2    2   10.3
#> 3    3   19.0
#> 4    4   16.0
#> 5    5   15.6
#> 6    7   19.8

barplot(BOD$demand, names.arg = BOD$Time)

如果画计数条形图:

有时,bar 代表每个类别中的个例数。

这与直方图类似,但 X 轴是离散的,而不是连续的。

使用 table() 函数生成向量中每个唯一值的计数,

{r} 复制代码
table(mtcars$cyl)
#> 
#>  4  6  8 
#> 11  7 14

barplot(table(mtcars$cyl))

也可以使用 ggplot2 中的 geom_col() 获得类似的结果(绘制数值条形图)
注意 x 变量为连续变量和离散变量时的输出差异

{r} 复制代码
# 数值条形图
# BOD 数据框,"Time" 列作x值,"demand" 列作y值

ggplot(BOD, aes(x = Time, y = demand)) +
  geom_col()

# 将 x 转为因子, 当作离散变量处理
# 对于某些类型的数据,使用 factor() 函数将连续 x 变量转换为离散变量可能更有意义
ggplot(BOD, aes(x = factor(Time), y = demand)) +
  geom_col()

还可以使用 ggplot2 中的 geom_bar() 绘制每个类别中数据行数的计数图

{r} 复制代码
# 计数条形图
# 使用 mtcars 数据集中 cyl 为 x
# 而 y 则表示 cyl 每种数值共有几行 
ggplot(mtcars, aes(x = cyl)) +
  geom_bar()

# 转为因子
ggplot(mtcars, aes(x = factor(cyl))) +
  geom_bar()

Note:在早期版本的 ggplot2 中,创建数值条形图的推荐方法是使用 geom_bar(stat = "identity") .

ggplot2 2.2.0 开始,有一个 geom_col() 函数可以做同样的事情

Creating a Histogram 创建直方图

直方图纵坐标为频数 Frequency ,适合粗略了解一维数据的分布情况

使用 hist() 画直方图,并选择一个数值向量作为 x

{r} 复制代码
hist(mtcars$mpg)

# 通过指定 break 数量来明确箱数
hist(mtcars$mpg, breaks = 10)

也可以使用 ggplot2 中的 geom_histogram() 获得类似结果

{r} 复制代码
library(ggplot2)
ggplot(mtcars, aes(x = mpg)) +
  geom_histogram()
#> `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
# 当创建直方图而未指定图格宽度时,ggplot()会默认画 30 个箱数

# 改为更宽的箱宽
ggplot(mtcars, aes(x = mpg)) +
  geom_histogram(binwidth = 4)

Creating a Box Plot 创建箱体图

制作箱形图,使用 plot() 并传递 x 值的因子和 y 值的向量

当 x 是一个因子(而不是数值向量)时,它将自动创建一个箱形图:

{r} 复制代码
plot(ToothGrowth$supp, ToothGrowth$len)

如果两个向量在同一个数据框中,可以使用带有公式语法的 boxplot() 函数

它可以将 x 轴上的两个变量组合起来

{r} 复制代码
# Formula syntax 公式语法
boxplot(len ~ supp, data = ToothGrowth)

# 将两个变量的交互作用放在 x 轴上
boxplot(len ~ supp + dose, data = ToothGrowth)

使用 ggplot2 包中 geom_boxplot() 也可以画出类似的图形

{r} 复制代码
library(ggplot2)
ggplot(ToothGrowth, aes(x = supp, y = len)) +
  geom_boxplot()

通过使用 interaction() 将变量组合起来,也可以绘制多个变量的箱形图

{r} 复制代码
ggplot(ToothGrowth, aes(x = interaction(supp, dose), y = len)) +
  geom_boxplot()

基础图形中的箱形图与 ggplot2 中的箱形图略有不同。
这是因为它们使用略有不同的方法来计算分位数。

Plotting a Function Curve 绘制函数曲线

要绘制函数曲线,使用 curve() 并传递一个带有变量 x 的表达式

{r} 复制代码
curve(x^3 - 5*x, from = -4, to = 4)

可以绘制任何以数值向量作为输入并返回数值向量的函数

包括自定义的函数

使用 add = TRUE 将向先前创建的绘图添加一条曲线:

{r} 复制代码
# 绘制自定义函数
myfun <- function(xvar) {
  1 / (1 + exp(-xvar + 10))
}
curve(myfun(x), from = 0, to = 20)

# 添加曲线:
curve(1 - myfun(x), add = TRUE, col = "red")

使用 ggplot2 中的 stat_function(geom = "line") ,可以获得类似的结果

传递一个函数,该函数将数字向量作为输入并返回数字向量:

{r} 复制代码
library(ggplot2)
# 将 x 的范围设置为 0 到 20
ggplot(data.frame(x = c(0, 20)), aes(x = x)) +
  stat_function(fun = myfun, geom = "line")
相关推荐
王天平·Jason Wong6 分钟前
汉王、绘王签字版调用封装
开发语言·前端·javascript
_大峰_10 分钟前
R语言文本挖掘、情感分析和可视化哈利波特小说文本数据
开发语言·r语言·c#
tRNA做科研12 分钟前
【基于R语言群体遗传学】-6-表型计算等位基因频率、最大似然估计方法
开发语言·r语言
tRNA做科研13 分钟前
【基于R语言群体遗传学】-2-模拟基因型(simulating genotypes)
开发语言·r语言
驾驭人生28 分钟前
c# 操作mysql的帮助类
开发语言·mysql·c#
余子桃1 小时前
Python获取QQ音乐歌单歌曲
开发语言·python
q567315231 小时前
Python/Django 服务器升级脚本
服务器·开发语言·python·游戏·django
Michael Lee.1 小时前
Python学习篇:Python基础知识(三)
开发语言·python·学习·pycharm
martian6651 小时前
学懂C#编程:属性(Property)的概念定义及使用详解
java·开发语言·c#·属性·property
逸群不凡1 小时前
C++11|lambda语法与使用
开发语言·c++