Linux 的 uniq 命令

uniq 是 Linux 和 Unix 系统中一个非常实用的文本处理命令，用于检测、过滤和报告相邻的重复行 。它通常与 sort 命令结合使用，是 Shell 脚本和日常文本处理中不可或缺的工具。

1. 命令基本语法

uniq [选项] [输入文件] [输出文件]

输入文件：要处理的文件。如果未指定，则从标准输入读取。
输出文件：处理结果输出到的文件。如果未指定，则输出到标准输出。

2. 核心功能与工作原理

uniq 的核心功能是对相邻的重复行进行操作。它逐行读取输入，比较当前行与上一行。如果两行完全相同，则根据选项决定是保留、删除还是计数。

重要前提 ：uniq 默认只处理相邻的重复行。如果重复行不相邻（例如分散在文件各处），则需要先使用 sort 命令排序，使重复行相邻，再用 uniq 处理。

3. 常用选项详解

3.1 基础去重与显示

-c 或 --count：在每行前显示该行重复的次数。
-d 或 --repeated：仅输出重复的行（每组重复行只输出一次）。
-u 或 --unique：仅输出不重复的行（即文件中只出现一次的行）。

3.2 比较控制

-i 或 --ignore-case：忽略大小写差异进行比较。
-f N 或 --skip-fields=N：比较时跳过前 N 个字段（字段由空格或制表符分隔）。
-s N 或 --skip-chars=N：比较时跳过前 N 个字符。
-w N 或 --check-chars=N：只比较每行的前 N 个字符。

4. 实战示例

假设我们有一个日志文件 access.log，内容如下：

bash 复制代码

192.168.1.1 GET /index.html
192.168.1.2 POST /login
192.168.1.1 GET /index.html
192.168.1.3 GET /about
192.168.1.1 GET /index.html
192.168.1.2 POST /login

示例 1：基本去重（需先排序）

bash 复制代码

sort access.log | uniq

输出：

复制代码

192.168.1.1 GET /index.html
192.168.1.2 POST /login
192.168.1.3 GET /about

示例 2：统计每行出现次数

bash 复制代码

sort access.log | uniq -c

输出：

复制代码

      3 192.168.1.1 GET /index.html
      2 192.168.1.2 POST /login
      1 192.168.1.3 GET /about

示例 3：仅显示重复行

bash 复制代码

sort access.log | uniq -d

输出：

复制代码

192.168.1.1 GET /index.html
192.168.1.2 POST /login

示例 4：忽略特定字段进行比较

假设我们只关心 IP 地址，忽略请求方法和路径：

bash 复制代码

sort -k1,1 access.log | uniq -f 1

这里 sort -k1,1 先按第一个字段（IP）排序，然后 uniq -f 1 跳过第一个字段进行比较，最终每个 IP 只保留一行。

5. 经典组合：`sort | uniq`

由于 uniq 只能处理相邻重复，sort | uniq 成为处理文件中所有重复行的标准流程：

sort：将文件所有行排序，使相同内容的行相邻。
uniq：对排序后的相邻重复行进行去重或统计。

这个组合非常高效，常用于日志分析、数据清洗和列表去重。

6. 注意事项与常见误区

必须理解"相邻"原则 ：直接对未排序文件使用 uniq 可能无法去除所有重复。
空白行处理 ：空行也被视为一行内容，uniq 会对其进行处理。
字段与字符跳过的区别 ：-f 跳过的是由空格/制表符分隔的字段，-s 跳过的是字符，无论其是否在字段边界。
输出重定向 ：可以使用 > 或 >> 将结果保存到文件，例如 uniq input.txt > output.txt。

7. 总结

uniq 命令虽然简单，但功能强大且灵活。掌握其与 sort 的组合使用，可以高效解决许多文本去重和统计问题。记住它的核心是处理相邻重复行，这是正确使用该命令的关键。

Linux 的 uniq 命令

1. 命令基本语法

2. 核心功能与工作原理

3. 常用选项详解

3.1 基础去重与显示

3.2 比较控制

4. 实战示例

示例 1：基本去重（需先排序）

示例 2：统计每行出现次数

示例 3：仅显示重复行

示例 4：忽略特定字段进行比较

5. 经典组合：sort | uniq

6. 注意事项与常见误区

7. 总结

5. 经典组合：`sort | uniq`