【R语言】apply函数族

在R语言中使用循环操作时是使用自身来实现的，效率较低。所以R语言有一个符合其统计语言出身的特点：向量化。R语言中的向量化运用了底层的C语言，而C语言的效率比高层的R语言的效率高。

apply函数族主要是为了解决数据向量化运算的问题，以提高运行效率。

一、apply()函数

它是apply()函数族中最简单的函数，它的作用是将一个函数运用到矩阵或数组的某个维度。

此函数有3个参数：

X：输入的数据，一般是矩阵或数据框；

FUN：需要使用的函数；

GARGIN：指定函数在哪个维度上运行。其中1表示行，2表示列；如果是数组，还可以是更大的数字。

R 复制代码

x <- matrix(1:24, 6, 4)
x
# 计算每一行的最小值
apply(X=x, MARGIN=1, FUN=min)
# 计算每一列的平均值
apply(X=x, MARGIN=2, FUN=mean)

R 复制代码

# 将x中的一个元素改为NA，然后计算每一行的最小值
x[2,4] <- NA
apply(X=x, MARGIN=1, FUN=min)
# 使用min()函数中删除缺失值的参数na.rm
apply(X=x, MARGIN=1, FUN=min, na.rm=TRUE)

如下结果所示，当x中有NA时，得到的结果也会是NA。

R 复制代码

x <- array(1:24, dim=c(4,3,2))
x
apply(x, MARGIN=3, FUN=mean)

当MARGIN参数为向量时

Crystal 复制代码

x <- array(1:24, dim=c(4,3,2))
x
apply(x, MARGIN=c(1,3), FUN=mean)

MARGIN=c(1,3)表示对第1维（行）和第3维（深度/层）进行操作，而保持第2维（列）不变。

借助以下代码辅助理解。

R 复制代码

x <- array(1:24, dim=c(4,3,2))
x
apply(x, MARGIN=c(1,3), FUN=paste, collapse="-")

也可以在apply()函数中使用自定义函数或匿名函数：

R 复制代码

apply(x, MARGIN = 3, FUN =function(x){
                        list(range=range(x),mean=mean(x))
                    })

此函数允许输入数据为原子向量或递归向量，并将函数应用于输入数据的每一个元素，输出结果为与输入数据长度相同的列表。

它的参数是X和FUN，意义与apply()函数的一致。

R 复制代码

x <- 1:5
lapply(x, function(x){x^3})

lapply()函数会将FUN中的函数应用于每个值，而不是按照列或行进行应用。

R 复制代码

y <- matrix(1:4, 2, 2)
y
lapply(y, min)

R 复制代码

z <- list(x)
z
lapply(z,function(z){z^3})

lapply()函数会将FUN中的函数应用于每一列。

R 复制代码

a <- data.frame(x=1:4,y=5:8)
a
lapply(a,max)

sapply()函数其实是lapply()函数的灵活版本，除了X和FUN这两个参数外，它还多了simplify和USE.NAMES两个参数。

simplify：默认为TRUE，表示要求输出的结果为向量或矩阵；也可以让其等于array，表示输出结果为数组。

USE.NAMES：默认为TRUE，表示当输入为字符串时，将以字符串为输出命名。

R 复制代码

a <- data.frame(x=1:4,y=5:8)
a
# 当simplify和USE.NAMES都默认为TRUE时
sapply(a,max)

当输入为字符串且USE.NAMES为TRUE时：

R 复制代码

b = letters[1:5]
sapply(b,function(x) paste(x,"-",x))

当simplify和USE.NAMES都为FALSE时，sapply()函数的输出结果与lapply()函数完全一致。

R 复制代码

a
sapply(a,max,simplify=FALSE, USE.NAMES=FALSE)
lapply(a,max)

此函数与sapply()函数类似，仅多了一个FUN.VALUE的参数，此参数表示指定返回值的类型和形状。

R 复制代码

x <- list(a=1:4,b=5:8,c=9:13)
x
sapply(x, function(x){x+2})
vapply(x, function(x){x+2}, FUN.VALUE=numeric(4))

通过FUN.VALUE=numeric(4)将返回值的长度设为4，如果其中某个返回值的长度不为4（$c），就会报错。

mapply()函数是sapply()函数的多变量版本。

在sapply()函数中，FUN参数指定的函数只能同时接受一个向量，而mapply()函数中的FUN参数指定的函数可以同时接受多个向量。

如下所示，FUN中指定的函数接受了两个向量：2:6和10:14

R 复制代码

mapply(FUN=function(x,y) c(x+y,x*y),2:6,10:14)