R语言入门 | 使用 dplyr 进行数据转换

3.1简介

3.1.1准备工作

3.1.2 dplyr 基础

• 按值筛选观测（ filter() ）。
• 对行进行重新排序（ arrange() ）。
• 按名称选取变量（ select() ）。
• 使用现有变量的函数创建新变量（ mutate() ）。
• 将多个值总结为一个摘要统计量（ summarize() ）

3.2　使用 filter() 筛选行

filter() 函数可以基于观测的值筛选出一个观测子集。

filter(数据集，条件）

filter(flights, month == 1, day == 1)

注意：用双等号

进行赋值，保存数据集

jan1 <- filter(flights, month == 1, day == 1)

3.2.1　比较运算符

比较运算符：>、>=、<、<=、!=（不等于）和 ==（等于）

比较浮点数是否相等时，不能使用 ==，而应该使用 near()

3.2.2　逻辑运算符

& 表示"与"、| 表示 "或"、! 表示"非"。

filter(flights, month >= 5 | month <= 12)

filter(flights, month == 11 & day == 12)

而不是用&&，||(不要和C语言混淆）

简写形式：x %in% y

简化前：filter(flights, month == 1|month==3|month == 12)

复制代码

简化后：filter(flights, month%in%c(1,3,12))

3.2.3　缺失值

is.na() 函数：确定一个值是否为缺失值

filter() 只能筛选出条件为 TRUE 的行；它会排除那些条件为 FALSE 和 NA 的行。如果想保
留缺失值，需要明确指出

3.2.4 练习

a. 到达时间延误 2 小时或更多的航班。
filter(flights,arr_delay>=120)
b. 飞往休斯顿（IAH 机场或 HOU 机场）的航班。
filter(flights,dest=="TAH"|dest=="HOU")
c. 由联合航空（United）、美利坚航空（American）或三角洲航空（Delta）运营的航班。
filter(flights,carrier%in%c("AA","UA","DL"))
d. 夏季（7 月、8 月和 9 月）出发的航班。
filter(flights,month%in%c(7,8,9))
e. 到达时间延误超过 2 小时，但出发时间没有延误的航班。
filter(flights,arr_delay>120&dep_delay==0)
f. 延误至少 1 小时，但飞行过程弥补回 30 分钟的航班。
filter(flights,arr_delay>=60,(arr_delay-dep_delay)>=30)
g. 出发时间在午夜和早上 6 点之间（包括 0 点和 6 点）的航班。
filter(flights,dep_time<=600|dep_time==2400)

3.3　使用 arrange() 排列行

arrange() 函数：排序（默认升序）
参数：一个数据框和一组作为排序依据的列名
默认升序排列：
arrange（diamonds，price)
如果要降序排列：
arrange（diamonds，desc(price))
注意：如果列名不只一个，那么就使用后面的列在前面排序的基础上继续排
arrange(diamonds,cut,desc(price))

注意：NA数据总是排在最后（无论升序、降序）。

3.4　使用 select() 选择列

3.4.1select()函数

看到想要看的数据子集。

逗号：不连续筛选
冒号：连续筛选
# 按名称选择列
select (flights, year, month, day)

# 选择" year "和" day "之间的所有列（包括" year "和" day "）
select (flights, year : day)

# 选择不在" year "和" day "之间的所有列（不包括" year "和" day "）
select (flights, -(year : day))

3.4.2一些辅助函数

starts_with("abc") ：匹配以" abc "开头的名称。

• ends_with("xyz") ：匹配以" xyz "结尾的名称。
• contains("ijk") ：匹配包含" ijk "的名称。
• matches("(.)\\1") ：选择匹配正则表达式的那些变量。这个正则表达式会匹配名称中有
重复字符的变量。
• num_range("x", 1:3) ：匹配 x1 、 x2 和 x3 。
rename() 函数:重命名变量
rename(flights, deptime = dep_time)
参数1：数据集参数2：修改后参数3：修改前

select() 函数+everything() 辅助函数
可将几个指定变量移到数据框开头，其余变量依次排序：
select(flights, time_hour, air_time, everything())

3.5　使用 mutate() 添加新变量

mutate()函数：添加新列

复制代码

flights_sml <- select(flights,year:day,ends_with("delay"),distance,air_time)

mutate(flights_sml,gain = arr_delay - dep_delay,speed = distance / air_time * 60)

一旦创建，新列就可以立即使用：
mutate(flights_sml, gain = arr_delay - dep_delay, hours = air_time / 60, gain_per_hour = gain / hours )

transmute() 函数：只保留新变量，其余不要

3.5.1　常用创建函数

算术运算符

+、-、*、/、^
%/%（整数除法）
%%（求余）

对数函数

log()、log2() 和 log10()

偏移函数

lead() 和 lag() 函数可以返回一个序列的领先值和滞后值。

cumsum()累加和
cumprod()累加积
commin() 累加最小值
cummax()累加最大值
cummean() 累加均值

排秩

rank函数（排名）（默认升序）（从低到高）

desc函数（倒序）（从高到低）

区别sort（排序）：

minrank()函数

出现相同元素时，用minrank()排名，rank()算积分

练习：使用排秩函数找出 10 个延误时间最长的航班。如何处理名次相同的情况？仔细阅读

min_rank() 的帮助文件。

3.6　使用 summarize() 进行分组摘要

summarize()：可以将数据框折叠成一行

复制代码

summarize(flights, delay = mean(dep_delay, na.rm = TRUE))

na.rm = TRUE：移除NA值

group_by()

可以将分析单位从整个数据集更改为单个分组

复制代码

by_day <- group_by(flights, year, month, day)
summarize(by_day, delay = mean(dep_delay, na.rm = TRUE))

得到每一天的平均延误时间：

练习：找平均延误时间最长的10个城市

复制代码

by_city=group_by(flights,dest)%>%summarize(avg_delay=mean(arr_delay,na.rm=TRUE))%>%mutate(r=min_rank(desc(avg_delay)))%>%filter(r<=10)

不同加工钻石平均价格和数量
by_cut <- group_by(diamonds, cut)
summarize(by_cut, mean_price = mean(price,count=n(), na.rm = TRUE))

3.6.1　使用管道组合多种操作

常规做法

by_dest <- group_by(flights, dest) //根据目的地分组
delay <- summarize(by_dest,
count = n(),
dist = mean(distance, na.rm = TRUE),
delay = mean(arr_delay, na.rm = TRUE)
) //研究每个目的地的距离和平均延误时间之间的关系

delay <- filter(delay, count > 20, dest != "HNL") //在delay中去除起飞量20以下的，去除目的地HNL的

ggplot(data = delay, mapping = aes(x = dist, y = delay)) +
geom_point(aes(size = count), alpha = 1/3) +
geom_smooth(se = FALSE)

管道做法

%>%就像一根管道一样，把前面的命令结果传给后面地命令作为参数。可以理解为"然后"。
delays <- flights %>%
group_by(dest) %>%
summarize(
count = n(),
dist = mean(distance, na.rm = TRUE),
delay = mean(arr_delay, na.rm = TRUE)
) %>%
filter(count > 20, dest != "HNL")

3.6.2　缺失值

方法一：
flights %>% group_by(year, month, day) %>% summarize(mean = mean(dep_delay, na.rm = TRUE ))
na.rm 参数：可以在计算前除去缺失值
方法二：提前处理na
not_cancelled <- flights %>% filter( !is.na(dep_delay), !is.na(arr_delay) )
not_cancelled %>% group_by(year, month, day) %>% summarize(mean = mean(dep_delay))

3.6.3　计数

1.n() （需要na.rm=TRUE)

delays <- not_cancelled %>%
group_by(tailnum) %>%
summarize(
delay = mean(arr_delay, na.rm = TRUE ),
count = n()
)

2.非缺失值的计数（sum(!is_na())）

注：数据来源Lahman 包中Batting数据集

*#*转换成tibble，以便输出更美观
batting <- as_tibble(Lahman::Batting)

batters <- batting %>%
group_by(playerID) %>%
summarize(
ba = sum(H, na.rm = TRUE) / sum(AB, na.rm = TRUE),
ab = sum(AB, na.rm = TRUE) //能力（ba）和击球机会数量（ab）
)
batters %>%
filter(ab > 100) %>% //筛选出击打球数量超过100的球员，避免偶然情况
ggplot(mapping = aes(x = ab, y = ba)) +
geom_point() +
geom_smooth(se = FALSE)

结论：说明球员出场次数越多，命中率越高，但当出场次数足够多时，能力也就趋于稳定了。

最后我们来找出最伟大的十个球员。

复制代码

batters%>%filter(ab>1000)%>%arrange(desc(ba))

3.6.4　常用的摘要函数

复制代码

为了后面方便演示，我们先对没有取消的航班建立一个数据集
not_cancelled<-flights%>%filter(!is.na(dep_delay),!is.na(arr_delay))

位置度量

mean(x)：平均数

median(x)：中位数
not_cancelled %>%
group_by(year, month, day) %>%
summarize(
*#*平均延误时间：
avg_delay1 = mean(arr_delay),
*#*平均正延误时间：
avg_delay2 = mean(arr_delay $arr_delay \> 0$ )
)

分散程度度量

sd(x)：均方误差/标准误差
IQR(x)：四分位距
mad(x)：差 mad(x)
*Q:*为什么到某些目的地的距离比到其他目的地更多变？
not_cancelled %>%
group_by(dest) %>%
summarize(distance_sd = sd(distance)) %>%
arrange(desc(distance_sd))

秩的度量

min(x)
quantile(x, 0.25): 分位数，这里会找出 x 中按从小到大顺序大于前 25% 而小于后 75% 的值
max(x)
*Q:*每天最早和最晚的航班何时出发？
not_cancelled %>%
group_by(year, month, day) %>%
summarize(
first = min(dep_time),
last = max(dep_time)
)

Q：找出不同加工钻石中最贵和最便宜的

diamonds %>%
group_by(cut) %>%
summarize(
cheapest = min(price),
most_exp = max(price)
)

定位度量

first(x)：与 x $1$ 相同

nth(x, 2)：与x $2$ 相同

last(x)：与x $length(x)$ 相同

记得先排序再使用。

diamonds %>%
group_by(cut) %>%arrange(desc(price))%>%
summarize(
cheapest = last(price),
most_exp = first(price)
)

range(r）

给出范围中的最小值和最大值

#每天起飞最晚和最早的航班
not_cancelled %>% + group_by(year, month, day) %>% + mutate(r = min_rank(desc(dep_time))) %>% + filter(r %in% range(r))

复制代码

#找出不同加工钻石中最贵的那一颗和最便宜的那一颗
diamonds %>%
+     group_by(cut) %>%
+     mutate(r = min_rank(desc(price))) %>%
+     filter(r %in% range(r))

计数

n_ distinct(x) 唯一值，统计时去除重复的情况

复制代码

通过下面这个简单的例子，我们来看看n()函数和n_distinct()函数的区别
y=c("aa","aa","ua","ua","dl")
> demo=data.frame(y)

*#*哪个目的地具有最多的航空公司？
not_cancelled %>%
group_by(dest) %>%
summarize(carriers = n_distinct(carrier) ) %>%
arrange(desc(carriers))

飞往ATL,BOS,,CLT,ORD,TPA的航空公司最多。
count(x)
用于只需要计数的情况
#每个颜色的钻石有多少颗？

复制代码

diamonds%>%count(color)
比这样写简单：diamonds%>%group_by(color)%>%summarise(n=n())

还可以选择提供一个加权变量。例如，你可以使用以下代码算出每架飞机飞行的总里程
数（实际上就是求和）
not_cancelled%>%count(tailnum,wt=distance)

逻辑值的计数和比例

sum(x > 10) 和 mean(y == 0)
当与数值型函数一同使用时， TRUE 会转换为 1 ， FALSE 会转换为 0 。
这使得 sum() 和 mean() 非常适用于逻辑值：sum(x) 可以找出 x 中 TRUE 的数量， mean(x) 则可以找出TRUE比例。
sum(x<51)

此时，统计的是满足条件的个数
not_cancelled %>%
group_by(year, month, day) %>%
summarize(n_early = sum(dep_time < 500))
#每天的红眼航班（五点前出发）有几班？

mean(arr_delay > 60)
*#*延误超过1小时的航班比例是多少？
not_cancelled %>%
group_by(year, month, day) %>%
summarize(hour_perc = mean(arr_delay > 60))

3.6.5　按多个变量分组

循序渐进地进行摘要分析

复制代码

daily <- group_by(flights, year, month, day)

复制代码

(per_day <- summarize(daily, flights = n()))
(per_month <- summarize(per_day, flights = sum(flights)))

复制代码

(per_year <- summarize(per_month, flights = sum(flights)))

3.6.6　取消分组

ungroup()函数：取消分组

复制代码

daily<-group_by(flights,year,month,day)

复制代码

daily%>%ungroup()%>%summarize(n())

3.7　分组新变量（和筛选器）

复制代码

diamonds%>%group_by(color)%>%filter(min_rank(desc(price))<=5)

不同颜色钻石中最贵的5颗钻石popular_dests % group_by(dest) %>% filter(n() > 365)

popular_dests %>% filter(arr_delay > 0) %>% mutate(prop_delay = arr_delay / sum(arr_delay)) %>% select(year:day, dest, arr_delay, prop_delay)

R语言入门 | 使用 dplyr 进行数据转换

3.1简介

3.1.1准备工作

3.1.2 dplyr 基础

3.2 使用 filter() 筛选行

3.2.1 比较运算符

3.2.2 逻辑运算符

3.2.3 缺失值

3.2.4 练习

3.3 使用 arrange() 排列行

3.4 使用 select() 选择列

3.4.1select()函数

3.4.2一些辅助函数

3.5 使用 mutate() 添加新变量

3.5.1 常用创建函数

算术运算符

对数函数

偏移函数

排秩

3.6 使用 summarize() 进行分组摘要

3.6.1 使用管道组合多种操作

常规做法

管道做法

3.6.2 缺失值

3.6.3 计数

3.6.4 常用的摘要函数

位置度量

分散程度度量

秩的度量

定位度量

range(r）

计数

逻辑值的计数和比例

3.6.5 按多个变量分组

3.6.6 取消分组

3.7 分组新变量（和筛选器）

3.2　使用 filter() 筛选行

3.2.1　比较运算符

3.2.2　逻辑运算符

3.2.3　缺失值

3.3　使用 arrange() 排列行

3.4　使用 select() 选择列

3.5　使用 mutate() 添加新变量

3.5.1　常用创建函数

3.6　使用 summarize() 进行分组摘要

3.6.1　使用管道组合多种操作

3.6.2　缺失值

3.6.3　计数

3.6.4　常用的摘要函数

3.6.5　按多个变量分组

3.6.6　取消分组

3.7　分组新变量（和筛选器）