基于R语言的统计分析基础:使用dplyr包进行数据操作

dplyr是R语言中一个功能强大且流行的数据操作包,它提供了一系列用于数据清洗、转换、汇总和可视化的工具。这些工具包括选择列、过滤行、排序、添加或修改列、汇总数据以及分组和合并数据集的函数。dplyr的设计使得数据操作变得简单直观,同时保持高性能,并且支持与外部数据库的连接、懒惰数据操作以及窗口函数。此外,dplyr鼓励使用整洁数据的原则,并与其他R语言包(如tidyrggplot2等)有很好的集成,形成一个完整的数据分析工作流。

dplyr常用函数与用法

函数 用途
select() 选择数据集中的列
filter() 基于条件过滤行
arrange() 对数据集进行排序
mutate() 添加新列或修改现有列
summarise() 计算汇总统计量,减少到每组的单一行
group_by() 将数据集分组,以便进行分组操作
ungroup() 移除数据集的分组信息
distinct() 删除重复行,保留唯一值
inner_join() 根据两个数据集的共同列进行内连接
left_join() 根据左数据集的键和右数据集的键进行左连接
right_join() 根据右数据集的键和左数据集的键进行右连接
full_join() 根据两个数据集的键进行全连接
semi_join() 返回左数据集在右数据集中有匹配的记录
anti_join() 返回左数据集中不在右数据集中的记录

函数使用示例

这里先导入dplyr包,随后新建两个data.feame数据集用于后续操作,一个数据框用于存储学生信息,一个数据框用于存储专业课成绩

r 复制代码
library(dplyr)

students <- data.frame(  
  student_id = c(1, 2, 3, 4, 5),  
  name = c("GGBond", "FeiFei", "DickDai", "SuperFuckMan", "TeacherMihu"),  
  age = c(16, 17, 15, 23, 42)  
)  

courses <- data.frame(  
  course_id = c(101, 102, 103, 104, 105),  
  course_name = c("Math", "Science", "History", "Math", "Art"),  
  student_id = c(1, 2, 3, 1, 4)  
)
使用select()函数选择数据集中的列
r 复制代码
selected_students <- students %>%  select(name, age)  
selected_students
使用filter()函数基于条件过滤行
r 复制代码
filtered_students <- students %>%  filter(age > 21)  
filtered_students
使用arrange()函数对数据集进行排序
r 复制代码
arranged_students <- students %>%  arrange(desc(age))  
arranged_students
使用mutate()函数添加新列或修改现有列
r 复制代码
mutated_students <- students %>%  mutate(is_adult = age >= 21)  
mutated_students
使用summarise()函数计算汇总统计量,减少到每组的单一行
r 复制代码
summarised_students <- students %>%  summarise(avg_age = mean(age))  
summarised_students
使用group_by()ungroup()函数将数据集分组,以便进行分组操作,然后移除分组信息
r 复制代码
grouped_students <- students %>%  group_by(age) %>%  summarise(count = n())  
grouped_students
移除分组信息
r 复制代码
ungrouped_students <- grouped_students %>%  ungroup()  
ungrouped_students
使用distinct()函数删除重复行,保留唯一值
r 复制代码
distinct_courses <- courses %>%  distinct(course_name)  
distinct_courses
使用inner_join()函数根据两个数据集的共同列进行内连接
r 复制代码
inner_joined <- inner_join(students, courses, by = "student_id")  
inner_joined
使用left_join()函数根据左数据集的键和右数据集的键进行左连接
r 复制代码
left_joined <- left_join(students, courses, by = "student_id")  
left_joined
使用right_join()函数根据右数据集的键和左数据集的键进行右连接
r 复制代码
right_joined <- right_join(students, courses, by = "student_id")  
right_joined
使用full_join()函数根据两个数据集的键进行全连接
r 复制代码
full_joined <- full_join(students, courses, by = "student_id")  
full_joined
使用semi_join() 返回左数据集在右数据集中有匹配的记录
r 复制代码
semi_joined <- semi_join(students, courses, by = "student_id")  
print(semi_joined)
使用anti_join() 返回左数据集中不在右数据集中的记录
r 复制代码
anti_joined <- anti_join(students, courses, by = "student_id")  
print(anti_joined)

distinct_courses <- courses %>%  distinct(course_name)  
distinct_courses
相关推荐
狒狒热知识4 小时前
AI赋能下企业新闻内容优化178软文网赋能权威资讯形成持续积累效应
大数据
方也_arkling5 小时前
【Java-Day08】static / final / 枚举
java·开发语言
风吹夏回5 小时前
Python 全局异常处理:从“满屏 try-except”到优雅兜底
开发语言·python
Chengbei115 小时前
一站式源码安全检测工具、云安全 / APP / 小程序源码敏感信息递归多层目录扫描AK、JWT、手机号、身份证等敏感信息
java·开发语言·安全·web安全·网络安全·系统安全·安全架构
llz_1125 小时前
web-第一次课后作业
java·开发语言·idea
盘古信息IMS5 小时前
盘古信息IMS V6 8.0重磅发布:以薪火AI数智平台点燃离散制造数智化引擎
大数据·人工智能·制造
小熊Coding5 小时前
Python爬取当当网二手图书项目实战!
开发语言·爬虫·python·beautifulsoup·requests·二手图书
秋95 小时前
Java项目运行5天左右自动宕机:系统性定位与解决方案
java·开发语言·python
xiaoshuaishuai86 小时前
C# 内存管理与资源泄漏
开发语言·c#
论文小助手W6856 小时前
【ACM出版,EI检索】2026年人工智能与智慧城市国际学术会议(IC-AISC 2026)
大数据·人工智能·全文检索·智慧城市·交通物流