Linux系统sort排序与uniq去重

Linux系统sort排序与uniq去重

工作中数据太多太杂,不便于查看分析。这时是可以采用sort将数据排序,同时可以配合uniq命令进行去重。

场景:云平台中,日常工作包含巡检工作,是通过事先编写好的巡检脚本去检测云平台的和Node节点(Linux系统)的健康情况。有问题的信息会打印保存在日志中,这里面包含了很多IP(Node),而且具有大量重复IP(成百上千个IP等)。

为了定位到哪些Node节点存在问题以及都有什么问题。为了便于分析查看,需要对其IP进行排序以及去重处理。

sort 命令

sort 命令用于对文本数据进行排序

基本语法

1sort [选项]... [文件名]

如果没有指定文件名,sort 命令会从标准输入(stdin)读取数据,这使得它能够方便地与其他命令通过管道(|)组合使用

常用选项

  • -n:按数值大小进行排序
  • -r--reverse:逆序排序
  • -t :指定分隔符,用于字段排序(例如 -t',' 使用逗号作为分隔符)
  • -k :指定排序的字段,格式为 -kN[,M],其中 N 是字段编号,M 可选,表示排序结束的字段,可以用于排序跨越多个字段
  • -u--unique:输出唯一行,去除重复行
  • -m--merge:合并已排序的文件
  • -o :将排序结果输出到文件而不是标准输出,例如 -o sorted.txt

示例

  • 简单排序:按字母顺序排序文件内容

    bash 复制代码
    $ cat file.txt
    d
    c
    b
    a
    h
    e
    # 字母顺序
    $ sort file.txt
    a
    b
    c
    d
    e
    h
  • 数值排序:按数值从小到大排序

    bash 复制代码
    $ cat values.txt
    23
    123
    456
    88
    21
    3
    # 按数值从小到大排序
    $ sort -n values.txt
    3
    21
    23
    88
    123
    456
  • 逆序排序:按字母顺序逆序排序

    bash 复制代码
    $ cat file.txt
    d
    c
    b
    a
    h
    j
    e
    q
    e
    # 按字母顺序逆序排序
    $ sort -r file.txt
    q
    j
    h
    e
    e
    d
    c
    b
    a
  • 字段排序:按文件中第二列排序

    bash 复制代码
    $ cat students.txt
    Alice,90
    Bob,85
    Charlie,92
    David,88
    Eva,95
    Alice,87
    # 按文件中第二列排序
    $ sort -t ',' -n -k2 students.txt
    Bob,85
    Alice,87
    David,88
    Alice,90
    Charlie,92
    Eva,95
  • 去重并排序:先去重后排序

    bash 复制代码
    $ sort -u input.txt | sort
    2
    3
    e
    # 先去重后排序
    $ cat input.txt
    e
    e
    2
    2
    3
    3

uniq 命令

uniq 命令,用于去除文件中的重复内容行

基本用法

  • 语法:

    bash 复制代码
    uniq [选项]... [输入文件]
  • 特点:

    • 默认情况下,uniq 只能识别并处理相邻的重复行 。这意味着在处理文件之前,如果要删除所有重复行而不考虑它们的位置,通常需要先使用 sort 命令对文件进行排序。
    • 如果不指定输入文件,uniq 会从标准输入(stdin)读取数据,这使得它能很好地与其他命令通过管道(|)结合使用。

常用选项

  • -c--count:在每行前加上该行在输入中出现的次数。
  • -d--repeated:只显示重复的行。
  • -u--unique:只显示唯一的行,即不重复的行。
  • -i--ignore-case:忽略大小写差异。
  • -f N--skip-fields=N:跳过每行开始的N个字段。
  • -s N--skip-chars=N:跳过每行开始的N个字符。
  • -w N--check-chars=N:仅比较每行的前N个字符。

示例

  1. 删除相邻的重复行

    bash 复制代码
    $ cat  input.txt
    e
    e
    2
    2
    3
    3
    # 删除相邻的重复行
    $ uniq input.txt
    e
    2
    3
  2. 统计每行出现次数

    bash 复制代码
    $ cat  input.txt
    e
    e
    2
    2
    3
    3
    $ uniq -c input.txt
          2 e
          2 2
          2 3
  3. 只显示唯一的行

    bash 复制代码
    $ cat input.txt
    e
    e
    2
    2
    3
    3
    ww
    # 只显示唯一的行
    $ uniq -u input.txt
    ww
  4. 结合 sort 去除所有重复行

    bash 复制代码
    $ cat data.txt
    apple
    banana
    orange
    apple
    grape
    banana
    cherry
    
    # 结合 sort 去除所有重复行
    $ sort data.txt | uniq > unique_data.txt
    $ cat unique_data.txt
    apple
    banana
    cherry
    grape
    orange
  5. 忽略大小写去重

    bash 复制代码
    $ cat names.txt
    Alice
    alice
    Bob
    bob
    Charlie
    charlie
    Alice
    # 忽略大小写去重
    $ sort -f names.txt | uniq -i
    Alice
    Bob
    Charlie

End

相关推荐
dsywws1 小时前
Linux学习笔记之vim入门
linux·笔记·学习
幺零九零零2 小时前
【C++】socket套接字编程
linux·服务器·网络·c++
wclass-zhengge2 小时前
Docker篇(Docker Compose)
运维·docker·容器
李启柱2 小时前
项目开发流程规范文档
运维·软件构建·个人开发·设计规范
free3 小时前
netstat中sendq/recvq用于排查发送端发送数据的问题
服务器
小林熬夜学编程3 小时前
【Linux系统编程】第四十一弹---线程深度解析:从地址空间到多线程实践
linux·c语言·开发语言·c++·算法
力姆泰克3 小时前
看电动缸是如何提高农机的自动化水平
大数据·运维·服务器·数据库·人工智能·自动化·1024程序员节
力姆泰克3 小时前
力姆泰克电动缸助力农业机械装备,提高农机的自动化水平
大数据·服务器·数据库·人工智能·1024程序员节
BPM_宏天低代码3 小时前
低代码 BPA:简化业务流程自动化的新趋势
运维·低代码·自动化
程思扬4 小时前
为什么Uptime+Kuma本地部署与远程使用是网站监控新选择?
linux·服务器·网络·经验分享·后端·网络协议·1024程序员节