概述
Linux 中的 join 命令,这个命令的核心作用是按"关键字段"将多个文件的行关联合并 (类似数据库的 JOIN 操作),区别于 paste 仅按行号无脑拼接,join 会匹配两个文件中关键字段相同的行,再横向合并,是处理结构化文本(如 CSV、日志、数据清单)的核心工具。
资料合集:https://pan.quark.cn/s/6fe3007c3e95、https://pan.quark.cn/s/561de99256a5、https://pan.quark.cn/s/985f55b13d94、https://pan.quark.cn/s/d0fb20abd19a
一、核心前提(必看)
使用 join 的硬性要求:
- 待合并的文件必须按关键字段排序(否则无法正确匹配);
- 默认以第一列作为关键字段(可通过选项指定其他列);
- 仅支持两个文件的合并(多文件需多次拼接);
- 字段默认用空格/制表符分隔(可自定义分隔符)。
二、基本语法
bash
join [选项] 文件1 文件2
- 无选项时,默认按第一列(关键字)合并,输出"关键字 + 文件1剩余列 + 文件2剩余列";
- 支持
-作为文件参数,代表读取标准输入。
三、常用选项(按功能分类)
join 的选项围绕"关键字段、分隔符、匹配规则"设计,覆盖数据库 JOIN 的核心逻辑:
| 选项分类 | 选项 | 作用 | 实用场景 |
|---|---|---|---|
| 关键字段配置 | |||
-1 N |
指定文件1的第N列作为关键字 | 文件1关键字不在第一列时(如第3列是用户ID) | |
-2 N |
指定文件2的第N列作为关键字 | 文件2关键字不在第一列时 | |
| 分隔符配置 | |||
-t "字符" |
指定字段分隔符(默认空格/制表符) | 处理CSV文件(分隔符为逗号)、竖线分隔的文本 | |
-o 格式 |
自定义输出列(如1.1 2.2代表文件1第1列+文件2第2列) |
仅输出需要的列,避免冗余 | |
| 匹配规则(核心) | |||
-a 数字 |
显示指定文件的"不匹配行"(-a1=文件1所有行,-a2=文件2所有行) | 实现 LEFT/RIGHT JOIN 效果 | |
-v 数字 |
仅显示指定文件的"不匹配行"(-v1=仅文件1不匹配行) | 找两个文件的差异行 | |
-e "字符串" |
用指定字符串填充空列(配合-a使用) | 统一空值显示(如用"N/A"替代空) |
四、基础示例(先理解核心逻辑)
先准备两个已排序的结构化文件(模拟用户信息和订单信息):
txt
# file1.txt(用户信息:ID 姓名 年龄,关键字=ID)
1 张三 25
2 李四 30
3 王五 28
4 赵六 35
# file2.txt(订单信息:ID 订单号 金额,关键字=ID)
1 OD001 100
2 OD002 200
3 OD003 150
5 OD005 300
场景1:默认合并(INNER JOIN)
仅输出关键字(ID)在两个文件中都存在的行:
bash
join file1.txt file2.txt
输出结果(关键字+file1剩余列+file2剩余列):
1 张三 25 OD001 100
2 李四 30 OD002 200
3 王五 28 OD003 150
- 赵六(ID4)、ID5 因仅在单个文件存在,被过滤(这就是数据库的 INNER JOIN)。
场景2:LEFT JOIN(显示文件1所有行)
用 -a1 保留文件1的所有行,无匹配时补空:
bash
join -a1 file1.txt file2.txt
输出结果:
1 张三 25 OD001 100
2 李四 30 OD002 200
3 王五 28 OD003 150
4 赵六 35
- 赵六(ID4)无订单,订单列为空;ID5 仍不显示(仅保留文件1所有行)。
场景3:FULL JOIN(显示所有行)
组合 -a1 -a2 实现全连接,配合 -e "N/A" 填充空值:
bash
join -a1 -a2 -e "N/A" file1.txt file2.txt
输出结果:
1 张三 25 OD001 100
2 李四 30 OD002 200
3 王五 28 OD003 150
4 赵六 35 N/A N/A
5 N/A N/A OD005 300
场景4:仅显示不匹配行(找差异)
用 -v1 仅显示文件1独有的行,-v2 仅显示文件2独有的行:
bash
# 仅文件1独有的行(赵六)
join -v1 file1.txt file2.txt
# 输出:4 赵六 35
# 仅文件2独有的行(ID5)
join -v2 file1.txt file2.txt
# 输出:5 OD005 300
五、进阶实操(处理CSV/自定义关键字)
场景1:处理CSV文件(逗号分隔)
准备CSV文件(需先排序):
txt
# user.csv(ID,姓名,城市)
1,张三,北京
2,李四,上海
3,王五,广州
# order.csv(订单号,用户ID,金额)
OD001,1,100
OD002,2,200
OD003,3,150
OD005,5,300
步骤1:先按关键字排序(order.csv的关键字是第2列,需先排序):
bash
# 对order.csv按第2列(用户ID)排序,保存为sorted_order.csv
sort -t "," -k 2 order.csv > sorted_order.csv
步骤2:指定分隔符+自定义关键字+自定义输出列:
bash
# -t ",":分隔符为逗号
# -1 1:file1(user.csv)关键字是第1列
# -2 2:file2(sorted_order.csv)关键字是第2列
# -o 1.2,1.3,2.1,2.3:输出列=姓名、城市、订单号、金额
join -t "," -1 1 -2 2 -o 1.2,1.3,2.1,2.3 user.csv sorted_order.csv
输出结果(CSV格式):
张三,北京,OD001,100
李四,上海,OD002,200
王五,广州,OD003,150
场景2:管道配合(实时处理命令输出)
将两个命令的输出按关键字合并(用 - 代表标准输入):
bash
# 模拟生成已排序的用户ID+消费额,与file1.txt合并
echo -e "1 500\n2 800\n3 600" | join -1 1 -2 1 file1.txt -
输出结果:
1 张三 25 500
2 李四 30 800
3 王五 28 600
六、关键注意事项
- 排序是前提 :文件未排序会导致匹配失败,排序时需和
join用相同的分隔符(如CSV用sort -t "," -k N); - 分隔符统一 :若文件中字段分隔符是多个空格/制表符混合,可先用
tr -s ' '压缩为单个空格; - 关键字唯一 :若关键字重复,
join会按笛卡尔积合并(如文件1ID1有2行,文件2ID1有3行,会生成6行); - 空值处理 :无匹配的列默认为空,用
-e可自定义填充值(需配合-a使用才生效); - 二进制文件:仅支持文本文件,不支持二进制文件(如压缩包、镜像)。
七、与paste/cat的核心区别(必分清)
| 命令 | 合并逻辑 | 核心前提 | 适用场景 |
|---|---|---|---|
join |
按关键字段匹配合并(数据库JOIN) | 文件需按关键字排序 | 关联结构化数据(用户+订单、ID+信息) |
paste |
按行号无脑列拼接 | 无前提 | 简单列合并(姓名+年龄+职业) |
cat |
按顺序纵向行拼接 | 无前提 | 合并文件行(日志片段、文本片段) |
总结
join 是结构化文本的关联合并工具 ,核心价值是按关键字匹配行,日常高频用法:
- 基础内连接:
join 文件1 文件2 - 左/右连接:
join -a1/-a2 -e "N/A" 文件1 文件2 - 找差异行:
join -v1/-v2 文件1 文件2 - 处理CSV:
join -t "," -1 N -2 M 文件1 文件2 - 自定义输出列:
join -o 1.X,2.Y 文件1 文件2