R语言dplyr包常用函数

文章目录

  • 一、dplyr包
  • [二、新加列 mutate()](#二、新加列 mutate())
  • [三、选取列 select()](#三、选取列 select())
  • [四、修改列名 rename()](#四、修改列名 rename())
  • [五、筛选 filter()](#五、筛选 filter())
  • [六、统计汇总 summarise()](#六、统计汇总 summarise())
  • [七、分组统计 group_by()](#七、分组统计 group_by())
  • [八、排序 arrange()](#八、排序 arrange())
  • [九、左联结 left_join()](#九、左联结 left_join())
  • [十、右联结 right_join()](#十、右联结 right_join())
  • [十一、满联结 full_join()](#十一、满联结 full_join())

一、dplyr包

tidyverse里的数据处理工具包dplyr被誉为"瑞士军刀"。

dplyr主要包含以下10个主要的函数:

  • mutate(),select(),rename(),filter()
  • summarise(),group_by(),arrange()
  • left_join(),right_join(),full_join()

二、新加列 mutate()

c 复制代码
df
##    a b c
## 1  1 3 3
## 2 23 5 8
## 3  3 7 6
## 4  3 5 8

mutate(.data = df, d = c(1,2,3,4)) 
##    a b c d
## 1  1 3 3 1
## 2 23 5 8 2
## 3  3 7 6 3
## 4  3 5 8 4

新加的向量的长度要么与数据框的行数等长,要么长度为1,通过循环机制补齐。


三、选取列 select()

c 复制代码
df %>% select(a, b)
##    a b
## 1  1 3
## 2 23 5
## 3  3 7
## 4  3 5

如果不想要某列,可以在变量前面加 - 或者 !,两者的结果是一样的。

c 复制代码
df %>% select(-a)
##   b c
## 1 3 3
## 2 5 8
## 3 7 6
## 4 5 8

四、修改列名 rename()

格式为 rename(.data, new_name = old_name)

c 复制代码
df %>% 
  select(a, b) %>% 
  rename(bb = b)
##    a bb
## 1  1  3
## 2 23  5
## 3  3  7
## 4  3  5

五、筛选 filter()

c 复制代码
df %>% filter(a == 3)
##   a b c
## 1 3 7 6
## 2 3 5 8

六、统计汇总 summarise()

summarise()函数非常强大,主要用于统计汇总,往往与其他函数配合使用。

c 复制代码
df %>% summarise(
    mean_a   = mean(a),
    median_b = median(b),
    n        = n(),
    sum_d    = sum(d)
)

##   mean_a median_b n sum_d
## 1    7.5        5 4    17

summarise()mutate() 一样,也是创建新的变量(新的列)。区别在于,mutate()是在原数据框的基础上增加新的一列;而summarise()在成立的新的数据框中创建一列。


七、分组统计 group_by()

summarise()函数往往配合group_by()一起使用,即,先分组再统计。

c 复制代码
df1
##    a b c
## 1 s1 3 3
## 2 s2 5 8
## 3 s1 7 6
## 4 s2 5 8

df1 %>%
    group_by(a) %>%
    summarise(
        mean_b = mean(b),
        sd_c   = sd(c)
    )
    
## # A tibble: 2 × 3
##   a     mean_b  sd_c
##   <chr>  <dbl> <dbl>
## 1 s1         5  2.12
## 2 s2         5  0   

八、排序 arrange()

按照 a 从低到高排序

c 复制代码
df %>% arrange(a)
##    a b c
## 1  1 3 3
## 2  3 7 6
## 3  3 5 8
## 4 23 5 8

默认情况是从小到大排序,如果从高到低降序排序呢,有两种方法,第一种方法是在用于排序的变量前面加 - 号,第二种方法可读性更强些,需要使用desc()函数。

c 复制代码
df %>% arrange(-a)
##    a b c
## 1 23 5 8
## 2  3 7 6
## 3  3 5 8
## 4  1 3 3

df %>% arrange(desc(a))
##    a b c
## 1 23 5 8
## 2  3 7 6
## 3  3 5 8
## 4  1 3 3

九、左联结 left_join()

c 复制代码
df1
##    a b c
## 1 s1 3 3
## 2 s2 5 8
## 3 s1 7 6
## 4 s2 5 8

df2
##    a  b
## 1 s2 22
## 2 s3 66

# 写法一
left_join(df1, df2, by = "a")
# 写法二
df1 %>% left_join(df2, by = "a")

##    a b.x c b.y
## 1 s1   3 3  NA
## 2 s2   5 8  22
## 3 s1   7 6  NA
## 4 s2   5 8  22

十、右联结 right_join()

c 复制代码
# 写法一
right_join(df1, df2, by = "a")
# 写法二
df1 %>% right_join(df2, by = "a")

##    a b.x  c b.y
## 1 s2   5  8  22
## 2 s2   5  8  22
## 3 s3  NA NA  66

十一、满联结 full_join()

c 复制代码
df1 %>% full_join(df2, by = "a")
##    a b.x  c b.y
## 1 s1   3  3  NA
## 2 s2   5  8  22
## 3 s1   7  6  NA
## 4 s2   5  8  22
## 5 s3  NA NA  66
相关推荐
Faker66363aaa15 小时前
药品包装识别与分类系统:基于Faster R-CNN R50 FPN的Groie数据集训练_1
分类·r语言·cnn
Liue612312312 天前
自卸车多部件识别 _ Mask R-CNN改进模型实现(Caffe+FPN)_1
r语言·cnn·caffe
jiang_changsheng3 天前
环境管理工具全景图与深度对比
java·c语言·开发语言·c++·python·r语言
JicasdC123asd3 天前
使用Faster R-CNN模型训练汽车品牌与型号检测数据集 改进C4结构 优化汽车识别系统 多类别检测 VOC格式
r语言·cnn·汽车
请你喝好果汁6414 天前
## 学习笔记:R 语言中比例字符串的数值转换,如GeneRatio中5/100的处理
笔记·学习·r语言
怦怦蓝4 天前
DB2深度解析:从架构原理到与R语言的集成实践
开发语言·架构·r语言·db2
新新学长搞科研4 天前
【CCF主办 | 高认可度会议】第六届人工智能、大数据与算法国际学术会议(CAIBDA 2026)
大数据·开发语言·网络·人工智能·算法·r语言·中国计算机学会
Piar1231sdafa4 天前
战斗车辆状态识别与分类 --- 基于Mask R-CNN和RegNet的模型实现
r语言·cnn
陳土5 天前
R语言Offier包源码—1:read_docx()
r语言
善木科研喵5 天前
IF5.9分,α-硫辛酸如何缓解化疗神经毒性?网络毒理学结合网络药理学双重锁定关键通路!
数据库·数据分析·r语言·sci·生信分析·医学科研