【R语言】R语言中 rbind() 与 merge() 的区别详解

R语言中 rbind()merge() 的区别详解

在R语言中,对两个数据框(data.frame)进行合并操作的常用函数有 rbind()merge(),但它们的用途和逻辑完全不同。本文就来详细介绍一下这两个函数的区别与应用场景。

文章目录

  • [R语言中 `rbind()` 与 `merge()` 的区别详解](#R语言中 rbind()merge() 的区别详解)
    • [1 `rbind()` ------ 按行拼接](#1 rbind() —— 按行拼接)
      • [1.1 基本功能](#1.1 基本功能)
      • [1.2 示例](#1.2 示例)
    • [2 `merge()` ------ 按键合并](#2 merge() —— 按键合并)
      • [2.1 基本功能](#2.1 基本功能)
      • [2.2 示例](#2.2 示例)
    • [3 详细解释 merge() 函数和 SQL 的 JOIN 功能的相似性](#3 详细解释 merge() 函数和 SQL 的 JOIN 功能的相似性)
      • [3.1 示例与结果对照](#3.1 示例与结果对照)
        • [3.1.1 内连接(默认)------ 只要公共部分](#3.1.1 内连接(默认)—— 只要公共部分)
        • [3.1.2 左连接 ------ 保留 x 的所有行](#3.1.2 左连接 —— 保留 x 的所有行)
        • [3.1.3 右连接 ------ 保留 y 的所有行](#3.1.3 右连接 —— 保留 y 的所有行)
        • [3.1.4 全连接 ------ 两边都不丢](#3.1.4 全连接 —— 两边都不丢)
      • [3.2 几个实用细节(容易忽略)](#3.2 几个实用细节(容易忽略))
    • [4 `rbind()` vs `merge()` 核心区别](#4 rbind() vs merge() 核心区别)
    • [5 总结](#5 总结)

1 rbind() ------ 按行拼接

1.1 基本功能

  • 作用 :把两个数据框按照"行"的维度进行拼接(row bind),也就是增加数据的"条数",但是每个数据的"属性"不变化
  • 要求 :两个数据框必须具有 相同的列名相同的列数 ,否则会报错或强制补 NA
  • 常见用途:当两个数据框结构相同,只是观测值不同,需要纵向叠加时。

1.2 示例

r 复制代码
df1 <- data.frame(id = 1:3, value = c("A", "B", "C"))
df2 <- data.frame(id = 4:5, value = c("D", "E"))

rbind(df1, df2)

结果:

复制代码
  id value
1  1     A
2  2     B
3  3     C
4  4     D
5  5     E

👉 df2 的数据被直接拼接在 df1 的下面。

2 merge() ------ 按键合并

2.1 基本功能

  • 作用 :根据一个或多个键列(key),把两个数据框进行 数据库式的合并 ,非常类似 SQL 的 JOIN,或者GIS中的表连接。

  • 参数

    • by:指定键列。如果不写,默认使用两个数据框中同名的列。
    • allall.xall.y:控制是否保留不匹配的行,类似 SQL 中的全连接、左连接、右连接。

all :逻辑值,all = L 是 all.x = L 和 all.y = L 的简写,L 可以是 TRUE 或 FALSE。
all.x :逻辑值,默认为 FALSE。如果为 TRUE, 显示 x 中匹配的行,即便 y 中没有对应匹配的行,y 中没有匹配的行用 NA 来表示。
all.y:逻辑值,默认为 FALSE。如果为 TRUE, 显示 y 中匹配的行,即便 x 中没有对应匹配的行,x 中没有匹配的行用 NA 来表示。

2.2 示例

r 复制代码
df1 <- data.frame(id = 1:3, score = c(90, 85, 88))
df2 <- data.frame(id = c(2, 3, 4), name = c("Tom", "Jerry", "Lucy"))

merge(df1, df2, by = "id", all = TRUE)

结果:

复制代码
  id score  name
1  1    90  <NA>
2  2    85   Tom
3  3    88 Jerry
4  4  <NA>  Lucy

👉 可以看到,id 相同的行被合并到一起,不匹配的地方用 NA 填充。

3 详细解释 merge() 函数和 SQL 的 JOIN 功能的相似性

(此处参考:R 数据重塑 | 菜鸟教程 。)

merge() 设置 SQL 等价 保留哪些行
默认(all = FALSE INNER JOIN 仅键匹配成功的行
all.x = TRUE LEFT JOIN 左表全部 + 右表匹配,不匹配右侧补 NA
all.y = TRUE RIGHT JOIN 右表全部 + 左表匹配,不匹配左侧补 NA
all = TRUEall.x=TRUE & all.y=TRUE FULL OUTER JOIN 两表全部,任何一侧不匹配的用对侧列 NA 补齐

3.1 示例与结果对照

r 复制代码
x <- data.frame(id = 1:3, score = c(90, 85, 88))
y <- data.frame(id = c(2, 3, 4), name = c("Tom", "Jerry", "Lucy"))
3.1.1 内连接(默认)------ 只要公共部分
r 复制代码
merge(x, y, by = "id")
复制代码
  id score  name
1  2    85   Tom
2  3    88 Jerry
3.1.2 左连接 ------ 保留 x 的所有行
r 复制代码
merge(x, y, by = "id", all.x = TRUE)
复制代码
  id score  name
1  1    90  <NA>   # y 中没有 id=1,用 NA 补
2  2    85   Tom
3  3    88 Jerry
3.1.3 右连接 ------ 保留 y 的所有行
r 复制代码
merge(x, y, by = "id", all.y = TRUE)
复制代码
  id score  name
1  2    85   Tom
2  3    88 Jerry
3  4  <NA>  Lucy   # x 中没有 id=4,用 NA 补
3.1.4 全连接 ------ 两边都不丢
r 复制代码
merge(x, y, by = "id", all = TRUE)
# 同等写法:merge(x, y, by = "id", all.x = TRUE, all.y = TRUE)
复制代码
  id score  name
1  1    90  <NA>
2  2    85   Tom
3  3    88 Jerry
4  4  <NA>  Lucy

3.2 几个实用细节(容易忽略)

  1. 键列的指定
  • by = "id":两表键列同名。
  • by.x = "key_in_x", by.y = "key_in_y":两表键列不同名时这样写。
  • 可以是多个键by = c("id", "date")
  1. 重复键会产生"乘法效应"

    如果两边同一个键各有多行,merge() 会做笛卡尔匹配 (m×n 行)。这是预期行为,非 Bug。

    必要时先 unique() 去重或在键上汇总。

  2. 排序

    默认 sort = TRUE,结果会按键列排序;

    要尽量保持原表顺序(尤其左连接),用 sort = FALSE

r 复制代码
merge(x, y, by = "id", all.x = TRUE, sort = FALSE)
  1. 同名非键列的冲突

    两表中键以外 有同名列,merge() 会保留两列,并自动加后缀:
    suffixes = c(".x", ".y")(可自定义)。

  2. 缺失值匹配

    默认 NA 不参与匹配;可用 incomparables = NA 阻止某些值匹配(较少用)。

4 rbind() vs merge() 核心区别

函数 合并方式 要求/特点 适用场景
rbind() 直接拼行(纵向叠加) 两个数据框必须有相同的列名和结构 数据框结构完全相同,只是增加观测值
merge() 按键匹配合并 (类似 SQL JOIN 根据某些列进行匹配,不要求列结构相同 两个数据框包含不同的变量,需要根据键对齐

5 总结

  • 如果你的数据框结构一致,只是想简单地"上下拼接",用 rbind()
  • 如果你需要根据某些列进行类似数据库表的连接,用 merge()

掌握这两个函数的区别,有助于在数据预处理阶段更高效地完成任务。

📌 推荐用法选择

  • rbind() 更适合批量读取多个同结构数据(比如多个 Excel sheet)。
  • merge() 更适合数据关联(比如学生成绩表和学生信息表的合并)。
相关推荐
夏婵语冰1 天前
实用R语言机器学习指南:从数据预处理到模型实战(附配套学习资源)
开发语言·学习·r语言
好望角雾眠1 天前
第三阶段数据库-7:sql中函数,运算符,常用关键字
数据库·笔记·sql·学习·sqlserver·c#
做一个AC梦2 天前
MiniOB环境部署开发(使用Docker)
数据库·sql·miniob·ob·海扬数据库
Yolo566Q2 天前
“R语言+遥感”的水环境综合评价方法实践技术应用
开发语言·r语言
天意生信云2 天前
生信分析自学攻略 | R语言数据筛选和修改
数据结构·经验分享·r语言
l1t2 天前
分析xml标签属性和压缩级别对xlsx文件读取解析的影响
xml·开发语言·python·sql·duckdb
DONG9132 天前
Redis内存架构解析与性能优化实战
数据库·redis·sql·database
武昌库里写JAVA3 天前
使用 Java 开发 Android 应用:Kotlin 与 Java 的混合编程
java·vue.js·spring boot·sql·学习
水涵幽树3 天前
MySQL 时间筛选避坑指南:为什么格式化字符串比较会出错?
数据库·后端·sql·mysql·database