linux命令 根据某一字段去掉txt中重复的数据

前提:

文档为格式化好的数据。比如一行是一个json。

判断总共有多少行数据:

grep No f.txt | wc -l

查询重复数据有多少行:

grep No f.txt | sort -u | wc -l

找到重复的那行数据:(如果每行的json数据大,可忽略此操作)

grep No f.txt |sort|uniq -d

去除重复数据:

awk -v No=2 '!seen[$No]++' f.txt > output.txt

去重命令的工作原理是:

  • awk:文本处理工具。

  • -v No=2:设置awk变量No为2,这是我们要去重的列号。

  • !seen[$No]++:前缀运算符!用来判断数组seen中是否存在当前行的第No列的值。如果不存在,则执行后面的操作,即打印当前行。

  • input.txt:输入文件名。

  • > output.txt:将结果输出到output.txt文件中。

请确保你的输入文件是以空格或者制表符分隔的,并且列号是从1开始计数的。如果列与列之间的分隔符是其他字符,可以通过-F选项来指定分隔符。

相关推荐
百***66171 小时前
linux上redis升级
linux·运维·redis
z***56562 小时前
Nginx(搭建高可用集群)
运维·nginx·firefox
小糖学代码2 小时前
网络:4.1加餐 - 进程间关系与守护进程
linux·网络
m***66732 小时前
【Sql Server】sql server 2019设置远程访问,外网服务器需要设置好安全组入方向规则
运维·服务器·安全
天草二十六_简村人2 小时前
docker安装index-tts,实现文本转语音的本地私有化部署
运维·docker·ai·容器·ai编程
xinxinhenmeihao2 小时前
隧道代理和住宅IP有何不同》各有什么优缺点?
服务器·网络·tcp/ip
观望过往3 小时前
Docker 全面技术指南:从基础概念到企业级应用实践
运维·docker·容器
小小测试开发3 小时前
JMeter高级用法全解析:从性能测试到自动化监控,解锁压测工具的隐藏实力
运维·jmeter·自动化
小兔薯了3 小时前
6. Linux 硬盘分区管理
linux·运维·服务器
努力的Andy3 小时前
Linux 云服务器新增硬盘:从分区、格式化到挂载的完整指南
linux·运维·服务器