linux命令 根据某一字段去掉txt中重复的数据

前提:

文档为格式化好的数据。比如一行是一个json。

判断总共有多少行数据:

grep No f.txt | wc -l

查询重复数据有多少行:

grep No f.txt | sort -u | wc -l

找到重复的那行数据:(如果每行的json数据大,可忽略此操作)

grep No f.txt |sort|uniq -d

去除重复数据:

awk -v No=2 '!seen[$No]++' f.txt > output.txt

去重命令的工作原理是:

  • awk:文本处理工具。

  • -v No=2:设置awk变量No为2,这是我们要去重的列号。

  • !seen[$No]++:前缀运算符!用来判断数组seen中是否存在当前行的第No列的值。如果不存在,则执行后面的操作,即打印当前行。

  • input.txt:输入文件名。

  • > output.txt:将结果输出到output.txt文件中。

请确保你的输入文件是以空格或者制表符分隔的,并且列号是从1开始计数的。如果列与列之间的分隔符是其他字符,可以通过-F选项来指定分隔符。

相关推荐
神の愛6 小时前
左连接查询数据 left join
java·服务器·前端
九皇叔叔7 小时前
Ubuntu 22.04 版本常用设置
linux·运维·ubuntu
南境十里·墨染春水7 小时前
linux学习进展 线程同步——互斥锁
java·linux·学习
杨云龙UP8 小时前
ODA登录ODA Web管理界面时提示Password Expired的处理方法_20260423
linux·运维·服务器·数据库·oracle
郑寿昌9 小时前
IIoT本体迁移的领域扩展机制
服务器·前端·microsoft
songx_999 小时前
Linux基础2
linux·运维·服务器
我想要SSR9 小时前
搭建小龙虾过程和坑点
linux·服务器·ai
陈皮糖..10 小时前
27 届运维实习笔记|第三、四周:从流程熟练到故障排查,企业运维实战深化
运维·笔记·sql·nginx·ci/cd·云计算·jenkins
莫白媛10 小时前
Linux在限制敏感命令下的修改用户密码小白版
linux·运维·服务器
hhb_61811 小时前
C Shell 基础语法与高阶运维实战指南
运维·c语言·chrome