R语言学习笔记9-数据过滤-分组-融合

R语言学习笔记9-数据过滤-分组-融合

数据过滤

数据选择是指从数据结构(如数据框、列表等)中提取、筛选或操作数据的过程。从数据集中提取符合条件的行或列。这在数据分析和清洗过程中非常常见,可以从大量数据中快速筛选出需要的部分,R提供了包括基础的索引、逻辑条件、函数式编程方法等实现

基础数据过滤

使用方括号 [ ] 进行基本索引和切片

r 复制代码
# 创建一个示例数据框
df <- data.frame(
  name = c("Alice", "Bob", "Charlie"),
  age = c(25, 30, 28),
  gender = c("F", "M", "M"),
  score = c(88, 92, 85)
)

# 选择整列数据
df$name  # 选择名为"name"的列

# 选择多列数据
df[, c("name", "score")]  # 选择名为"name"和"score"的列

# 选择某行某列的数据
df[2, "age"]  # 选择第2行、"age"列的数据

# 切片选择多行多列数据
df[1:2, c("name", "age")]  # 选择第1行到第2行的"name"和"age"列的数据

条件筛选数据

使用逻辑条件进行数据筛选

r 复制代码
# 使用逻辑条件筛选数据
df[df$age > 25, ]  # 筛选年龄大于25岁的行数据

# 多条件筛选
df[df$age > 25 & df$gender == "M", ]  # 筛选年龄大于25岁且性别为男性的行数据

使用dplyr包进行数据操作

r 复制代码
# 加载 dplyr 包
library(dplyr)

# 示例数据框
df <- data.frame(
  name = c("Alice", "Bob", "Charlie"),
  age = c(25, 30, 28),
  gender = c("F", "M", "M"),
  score = c(88, 92, 85)
)

# 使用 dplyr 筛选和操作数据
# 选择特定列
df_selected <- df %>%
  select(name, age)

# 条件筛选
df_filtered <- df %>%
  filter(age > 25)

# 多条件筛选
df_multi_filter <- df %>%
  filter(age > 25, gender == "M")

# 按条件计算新列
df_calculated <- df %>%
  mutate(score_adjusted = score * 1.1)  # 添加一个新的列,表示成绩调整后的值

# 按组计算汇总统计
df_summary <- df %>%
  group_by(gender) %>%
  summarise(mean_age = mean(age), max_score = max(score))  # 按性别计算平均年龄和最高分

print(df_selected)
print(df_filtered)
print(df_multi_filter)
print(df_calculated)
print(df_summary)

使用subset()函数进行简单数据过滤

subset()函数可以根据行和列的逻辑条件从数据框中选择子集

r 复制代码
# 使用 subset 函数筛选数据
# 筛选年龄大于25岁的行
filtered_df <- subset(df, age > 25)

# 多条件筛选
filtered_df <- subset(df, age > 25 & gender == "M")

# 查看处理后的数据
print(filtered_df)

输出结果:
     name age gender score
2     Bob  30      M    92
3 Charlie  28      M    85

数据分组

数据分组是指将数据集按照某个或多个变量的值进行划分,以便对每个分组进行独立的分析或操作。数据分组在处理具有分类特征的数据集时特别有用,可帮助我们理解不同类别或组别之间的数据特征和差异

使用split()进行数据分组

在基础R中,可使用split()函数来根据某个变量的值将数据分组

r 复制代码
# 创建一个示例数据框
df <- data.frame(
  group = c('A', 'B', 'A', 'B', 'A', 'B'),
  value = c(1, 2, 3, 4, 5, 6)
)

# 使用split()函数按group列的值分组
grouped_data <- split(df$value, df$group)

# 查看分组结果
print(grouped_data)

输出结果会显示两个分组A和B,每个分组中包含对应的value值。

使用dplyr包进行数据分组

dplyr包是tidyverse系列包中的一个,它提供了非常强大的数据处理功能,包括数据分组。在dplyr中,可使用group_by()函数来进行数据分组

r 复制代码
# 加载dplyr包
library(dplyr)

# 示例数据框(同上)
df <- data.frame(
  group = c('A', 'B', 'A', 'B', 'A', 'B'),
  value = c(1, 2, 3, 4, 5, 6)
)

# 使用group_by()函数按group列的值分组
grouped_df <- df %>% group_by(group)

# 查看分组结构(不直接显示分组内容,但可用于后续操作)
str(grouped_df)

# 对分组数据进行操作,例如计算每组的平均值
summarized_df <- grouped_df %>% summarise(mean_value = mean(value))

# 查看操作结果
print(summarized_df)

group_by()函数将数据按group列的值进行了分组,但分组后的数据框grouped_df本身不会直接显示分组的内容。然而,这个分组结构可以在后续的操作中使用,例如在summarise()函数中计算每个分组的统计量

使用data.table包进行数据分组

r 复制代码
# 加载data.table包
library(data.table)

# 将数据框转换为data.table对象
dt <- as.data.table(df)

# 使用[, by=]语法进行分组和操作
summarized_dt <- dt[, .(mean_value = mean(value)), by = group]

# 查看操作结果
print(summarized_dt)

在data.table中,使用[, by=]的语法来进行分组操作。上面的代码计算了每个group的平均value值

数据融合

数据融合(或称数据合并)指的是将多个数据集按照某些条件或列进行连接,以便进行综合分析或处理。常见的数据融合方式包括基于列连接(merge)、基于行连接(bind)、以及使用特定关系操作符(如join)等

使用merge()进行数据融合

r 复制代码
# 创建示例数据框
df1 <- data.frame(
  ID = c(1, 2, 3),
  Name = c("Alice", "Bob", "Charlie"),
  Score1 = c(85, 92, 78)
)

df2 <- data.frame(
  ID = c(2, 3, 4),
  Score2 = c(88, 95, 80)
)

# 使用merge()函数按照ID列进行数据融合
merged_df <- merge(df1, df2, by = "ID", all = TRUE)  # 使用all = TRUE表示保留所有行

# 查看融合后的数据
print(merged_df)

merge()函数按照ID列将df1和df2进行连接,结果包含了所有的ID,并将两个数据框中的数据合并在一起

使用dplyr包进行数据融合

dplyr包提供了更为简洁和灵活的数据处理方式,包括数据融合操作

r 复制代码
# 加载dplyr包
library(dplyr)

# 示例数据框(同上)
df1 <- data.frame(
  ID = c(1, 2, 3),
  Name = c("Alice", "Bob", "Charlie"),
  Score1 = c(85, 92, 78)
)

df2 <- data.frame(
  ID = c(2, 3, 4),
  Score2 = c(88, 95, 80)
)

# 使用dplyr的left_join()函数按照ID列进行左连接
merged_df <- left_join(df1, df2, by = "ID")

# 查看融合后的数据
print(merged_df)

left_join()函数执行了按照ID列的左连接操作,即保留了df1中所有的行,并将df2中匹配的行数据合并到一起

使用data.table包进行数据融合

data.table是另一个效率高且功能强大的数据处理包,特别适用于大型数据集的操作

r 复制代码
# 加载data.table包
library(data.table)

# 示例数据框(同上)
df1 <- data.table(
  ID = c(1, 2, 3),
  Name = c("Alice", "Bob", "Charlie"),
  Score1 = c(85, 92, 78)
)

df2 <- data.table(
  ID = c(2, 3, 4),
  Score2 = c(88, 95, 80)
)

# 使用data.table的merge()函数按照ID列进行数据融合
merged_dt <- merge(df1, df2, by = "ID", all = TRUE)

# 查看融合后的数据
print(merged_dt)

在data.table中,merge()函数的用法与基础R中的merge类似,但它在处理大数据时有更高的效率

相关推荐
q5673152321 分钟前
在 Bash 中获取 Python 模块变量列
开发语言·python·bash
阿伟来咯~31 分钟前
记录学习react的一些内容
javascript·学习·react.js
JSU_曾是此间年少33 分钟前
数据结构——线性表与链表
数据结构·c++·算法
sjsjs1140 分钟前
【数据结构-合法括号字符串】【hard】【拼多多面试题】力扣32. 最长有效括号
数据结构·leetcode
许野平1 小时前
Rust: 利用 chrono 库实现日期和字符串互相转换
开发语言·后端·rust·字符串·转换·日期·chrono
也无晴也无风雨1 小时前
在JS中, 0 == [0] 吗
开发语言·javascript
Suckerbin1 小时前
Hms?: 1渗透测试
学习·安全·网络安全
狂奔solar1 小时前
yelp数据集上识别潜在的热门商家
开发语言·python
水豚AI课代表1 小时前
分析报告、调研报告、工作方案等的提示词
大数据·人工智能·学习·chatgpt·aigc
聪明的墨菲特i1 小时前
Python爬虫学习
爬虫·python·学习