linux命令 根据某一字段去掉txt中重复的数据

前提:

文档为格式化好的数据。比如一行是一个json。

判断总共有多少行数据:

grep No f.txt | wc -l

查询重复数据有多少行:

grep No f.txt | sort -u | wc -l

找到重复的那行数据:(如果每行的json数据大,可忽略此操作)

grep No f.txt |sort|uniq -d

去除重复数据:

awk -v No=2 '!seen[$No]++' f.txt > output.txt

去重命令的工作原理是:

  • awk:文本处理工具。

  • -v No=2:设置awk变量No为2,这是我们要去重的列号。

  • !seen[$No]++:前缀运算符!用来判断数组seen中是否存在当前行的第No列的值。如果不存在,则执行后面的操作,即打印当前行。

  • input.txt:输入文件名。

  • > output.txt:将结果输出到output.txt文件中。

请确保你的输入文件是以空格或者制表符分隔的,并且列号是从1开始计数的。如果列与列之间的分隔符是其他字符,可以通过-F选项来指定分隔符。

相关推荐
.生产的驴4 小时前
1Panel实战|SpringColud微服务部署生产环境一键部署Docker+Nacos+MySQL 数据定时备份 控制台 安全高效易维护
服务器·后端·mysql·spring cloud·docker·微服务·信息可视化
牛奶咖啡134 小时前
DevOps自动化运维实践_搭建UEFI网络引导的自动安装Ubuntu20及其更高版本系统
运维·自动化·devops·cloud-init·cloud-init自动应答·ubuntu24系统自动化安装·uefi网络引导自动安装部署
-Da-4 小时前
【操作系统学习日记】并发编程中的竞态条件与同步机制:互斥锁与信号量
java·服务器·javascript·数据库·系统架构
A.A呐4 小时前
【Linux第十八章】线程
linux
wanhengidc4 小时前
云手机与模拟器的关系
大数据·运维·服务器·分布式·智能手机
fresh hacker5 小时前
【Linux系统】通用的“系统排障”
linux·运维·服务器·网络·php
编程之升级打怪5 小时前
Linux系统难用的原因
linux
STKingA15 小时前
Win11 WSL2+Ubuntu开发环境配置全攻略
linux·运维·ubuntu
原来是猿5 小时前
关于【进程池阻塞 + 子进程未回收问题】
linux·服务器·c++
wzhidev6 小时前
05、Python流程控制与函数定义:从调试现场到工程实践
linux·网络·python