uniq 是 Linux 和 Unix 系统中一个非常实用的文本处理命令,用于检测、过滤和报告相邻的重复行 。它通常与 sort 命令结合使用,是 Shell 脚本和日常文本处理中不可或缺的工具。
1. 命令基本语法
- 输入文件:要处理的文件。如果未指定,则从标准输入读取。
- 输出文件:处理结果输出到的文件。如果未指定,则输出到标准输出。
2. 核心功能与工作原理
uniq 的核心功能是对相邻的重复行进行操作。它逐行读取输入,比较当前行与上一行。如果两行完全相同,则根据选项决定是保留、删除还是计数。
重要前提 :uniq 默认只处理相邻 的重复行。如果重复行不相邻(例如分散在文件各处),则需要先使用 sort 命令排序,使重复行相邻,再用 uniq 处理。
3. 常用选项详解
3.1 基础去重与显示
-c或--count:在每行前显示该行重复的次数。-d或--repeated:仅输出重复的行(每组重复行只输出一次)。-u或--unique:仅输出不重复的行(即文件中只出现一次的行)。
3.2 比较控制
-i或--ignore-case:忽略大小写差异进行比较。-f N或--skip-fields=N:比较时跳过前 N 个字段(字段由空格或制表符分隔)。-s N或--skip-chars=N:比较时跳过前 N 个字符。-w N或--check-chars=N:只比较每行的前 N 个字符。
4. 实战示例
假设我们有一个日志文件 access.log,内容如下:
bash
192.168.1.1 GET /index.html
192.168.1.2 POST /login
192.168.1.1 GET /index.html
192.168.1.3 GET /about
192.168.1.1 GET /index.html
192.168.1.2 POST /login
示例 1:基本去重(需先排序)
bash
sort access.log | uniq
输出:
192.168.1.1 GET /index.html
192.168.1.2 POST /login
192.168.1.3 GET /about
示例 2:统计每行出现次数
bash
sort access.log | uniq -c
输出:
3 192.168.1.1 GET /index.html
2 192.168.1.2 POST /login
1 192.168.1.3 GET /about
示例 3:仅显示重复行
bash
sort access.log | uniq -d
输出:
192.168.1.1 GET /index.html
192.168.1.2 POST /login
示例 4:忽略特定字段进行比较
假设我们只关心 IP 地址,忽略请求方法和路径:
bash
sort -k1,1 access.log | uniq -f 1
这里 sort -k1,1 先按第一个字段(IP)排序,然后 uniq -f 1 跳过第一个字段进行比较,最终每个 IP 只保留一行。
5. 经典组合:sort | uniq
由于 uniq 只能处理相邻重复,sort | uniq 成为处理文件中所有重复行的标准流程:
这个组合非常高效,常用于日志分析、数据清洗和列表去重。
6. 注意事项与常见误区
- 必须理解"相邻"原则 :直接对未排序文件使用
uniq可能无法去除所有重复。 - 空白行处理 :空行也被视为一行内容,
uniq会对其进行处理。 - 字段与字符跳过的区别 :
-f跳过的是由空格/制表符分隔的字段,-s跳过的是字符,无论其是否在字段边界。 - 输出重定向 :可以使用
>或>>将结果保存到文件,例如uniq input.txt > output.txt。
7. 总结
uniq 命令虽然简单,但功能强大且灵活。掌握其与 sort 的组合使用,可以高效解决许多文本去重和统计问题。记住它的核心是处理相邻重复行,这是正确使用该命令的关键。