Linux系统sort排序与uniq去重

工作中数据太多太杂，不便于查看分析。这时是可以采用sort将数据排序，同时可以配合uniq命令进行去重。

场景：云平台中，日常工作包含巡检工作，是通过事先编写好的巡检脚本去检测云平台的和Node节点（Linux系统）的健康情况。有问题的信息会打印保存在日志中，这里面包含了很多IP（Node），而且具有大量重复IP（成百上千个IP等）。

为了定位到哪些Node节点存在问题以及都有什么问题。为了便于分析查看，需要对其IP进行排序以及去重处理。

sort 命令

sort 命令用于对文本数据进行排序

基本语法

复制代码

1sort [选项]... [文件名]

如果没有指定文件名，sort 命令会从标准输入（stdin）读取数据，这使得它能够方便地与其他命令通过管道（|）组合使用

常用选项

-n：按数值大小进行排序
-r 或 --reverse：逆序排序
-t ：指定分隔符，用于字段排序（例如 -t',' 使用逗号作为分隔符）
-k ：指定排序的字段，格式为 -kN[,M]，其中 N 是字段编号，M 可选，表示排序结束的字段，可以用于排序跨越多个字段
-u 或 --unique：输出唯一行，去除重复行
-m 或 --merge：合并已排序的文件
-o ：将排序结果输出到文件而不是标准输出，例如 -o sorted.txt

示例

简单排序：按字母顺序排序文件内容

bash 复制代码

$ cat file.txt
d
c
b
a
h
e
# 字母顺序
$ sort file.txt
a
b
c
d
e
h

数值排序：按数值从小到大排序

bash 复制代码

$ cat values.txt
23
123
456
88
21
3
# 按数值从小到大排序
$ sort -n values.txt
3
21
23
88
123
456

逆序排序：按字母顺序逆序排序

bash 复制代码

$ cat file.txt
d
c
b
a
h
j
e
q
e
# 按字母顺序逆序排序
$ sort -r file.txt
q
j
h
e
e
d
c
b
a

字段排序：按文件中第二列排序

bash 复制代码

$ cat students.txt
Alice,90
Bob,85
Charlie,92
David,88
Eva,95
Alice,87
# 按文件中第二列排序
$ sort -t ',' -n -k2 students.txt
Bob,85
Alice,87
David,88
Alice,90
Charlie,92
Eva,95

去重并排序：先去重后排序

bash 复制代码

$ sort -u input.txt | sort
2
3
e
# 先去重后排序
$ cat input.txt
e
e
2
2
3
3

uniq 命令

uniq 命令，用于去除文件中的重复内容行

基本用法

语法:
bash 复制代码
```
uniq [选项]... [输入文件]
```
特点:
- 默认情况下，uniq 只能识别并处理相邻的重复行 。这意味着在处理文件之前，如果要删除所有重复行而不考虑它们的位置，通常需要先使用 sort 命令对文件进行排序。
- 如果不指定输入文件，uniq 会从标准输入（stdin）读取数据，这使得它能很好地与其他命令通过管道（|）结合使用。

常用选项

-c 或 --count：在每行前加上该行在输入中出现的次数。
-d 或 --repeated：只显示重复的行。
-u 或 --unique：只显示唯一的行，即不重复的行。
-i 或 --ignore-case：忽略大小写差异。
-f N 或 --skip-fields=N：跳过每行开始的N个字段。
-s N 或 --skip-chars=N：跳过每行开始的N个字符。
-w N 或 --check-chars=N：仅比较每行的前N个字符。

示例

删除相邻的重复行：

bash 复制代码

$ cat  input.txt
e
e
2
2
3
3
# 删除相邻的重复行
$ uniq input.txt
e
2
3

统计每行出现次数：

bash 复制代码

$ cat  input.txt
e
e
2
2
3
3
$ uniq -c input.txt
      2 e
      2 2
      2 3

只显示唯一的行：

bash 复制代码

$ cat input.txt
e
e
2
2
3
3
ww
# 只显示唯一的行
$ uniq -u input.txt
ww

结合 sort 去除所有重复行：

bash 复制代码

$ cat data.txt
apple
banana
orange
apple
grape
banana
cherry

# 结合 sort 去除所有重复行
$ sort data.txt | uniq > unique_data.txt
$ cat unique_data.txt
apple
banana
cherry
grape
orange

忽略大小写去重：

bash 复制代码

$ cat names.txt
Alice
alice
Bob
bob
Charlie
charlie
Alice
# 忽略大小写去重
$ sort -f names.txt | uniq -i
Alice
Bob
Charlie

Linux系统sort排序与uniq去重