linux命令 根据某一字段去掉txt中重复的数据

前提:

文档为格式化好的数据。比如一行是一个json。

判断总共有多少行数据:

grep No f.txt | wc -l

查询重复数据有多少行:

grep No f.txt | sort -u | wc -l

找到重复的那行数据:(如果每行的json数据大,可忽略此操作)

grep No f.txt |sort|uniq -d

去除重复数据:

awk -v No=2 '!seen[$No]++' f.txt > output.txt

去重命令的工作原理是:

  • awk:文本处理工具。

  • -v No=2:设置awk变量No为2,这是我们要去重的列号。

  • !seen[$No]++:前缀运算符!用来判断数组seen中是否存在当前行的第No列的值。如果不存在,则执行后面的操作,即打印当前行。

  • input.txt:输入文件名。

  • > output.txt:将结果输出到output.txt文件中。

请确保你的输入文件是以空格或者制表符分隔的,并且列号是从1开始计数的。如果列与列之间的分隔符是其他字符,可以通过-F选项来指定分隔符。

相关推荐
oscar99912 小时前
构建敏捷团队的DevOps测试策略:速度与可靠性的平衡艺术
运维·测试·devops
欣然~13 小时前
法律案例 PDF 批量转 TXT 工具代码
linux·前端·python
星辰&与海13 小时前
Proxmox导入虚拟机后进入dracut紧急模式
运维
阮松云13 小时前
a start job is running for Builds and install new kernel modules through DKMS
linux·centos
咕噜签名-铁蛋14 小时前
火山云豆包:重新定义AI交互,让智能触手可及
服务器
Serverless社区14 小时前
进阶指南:BrowserUse + Agentrun Sandbox 最佳实践指南
运维·阿里云·云原生·serverless·函数计算
安当加密14 小时前
电力系统如何防“明文传输”?某电网公司用SM2+UKey构建“端到端加密”实战
服务器·数据库·安全·阿里云
Maggie_ssss_supp14 小时前
Linux-MySQL权限管理
linux·运维·mysql
石像鬼₧魂石14 小时前
Kali Linux 内网渗透:深度工程实施手册
linux·运维·服务器
sg_knight15 小时前
工厂方法模式(Factory Method)
java·服务器·python·设计模式·工厂方法模式·工厂模式