linux命令根据某一字段去掉txt中重复的数据

susu10830189112024-08-09 18:57

前提：

文档为格式化好的数据。比如一行是一个json。

判断总共有多少行数据：

grep No f.txt | wc -l

查询重复数据有多少行：

grep No f.txt | sort -u | wc -l

找到重复的那行数据：(如果每行的json数据大，可忽略此操作)

grep No f.txt |sort|uniq -d

去除重复数据：

awk -v No=2 '!seen[$No]++' f.txt > output.txt

去重命令的工作原理是：

awk：文本处理工具。
-v No=2：设置awk变量No为2，这是我们要去重的列号。
!seen[$No]++：前缀运算符!用来判断数组seen中是否存在当前行的第No列的值。如果不存在，则执行后面的操作，即打印当前行。
input.txt：输入文件名。
> output.txt：将结果输出到output.txt文件中。

请确保你的输入文件是以空格或者制表符分隔的，并且列号是从1开始计数的。如果列与列之间的分隔符是其他字符，可以通过-F选项来指定分隔符。

上一篇：浅谈微服务－业务分离

下一篇：leetcode787. K 站中转内最便宜的航班——优先队列优化的Dijkstra算法+剪枝

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03UV安装并设置国内源 04GitLab 零基础入门指南：从安装到项目管理全流程 05Linux下V2Ray安装配置指南 06一文了解国产算子编程语言 TileLang，TileLang 对国产开源生态的影响与启示 07NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 08在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）092025软件测试面试八股文（含答案+文档）10Labelme从安装到标注：零基础完整指南