Linux/Unix系统下的基础文本处理命令

Linux/Unix系统的文本处理命令之所以强大,在于它们的组合性和效率。这些命令通常遵循"做一件事并做好"的Unix哲学,每个工具专注于特定功能,通过管道机制灵活组合。

核心查看命令

  • cat - 连接并显示文件全部内容,也可合并多个文件:cat file1 file2 > combined.txt
  • less / more - 分页查看大文件,less功能更强(支持向前翻页、搜索):less huge_log.log
  • head - 查看文件开头,可指定行数:head -n 20 data.csv(看前20行)
  • tail - 查看文件末尾,实时监控:tail -f access.log(持续追踪日志变化)

搜索与过滤

  • grep - 模式匹配搜索,正则表达式支持:grep -r "error" ./logs/(递归搜索含"error"的行)
  • cut - 按字段或字符切割:cut -d',' -f1,3 data.csv(以逗号分隔,取第1、3列)
  • awk - 文本处理语言,支持复杂逻辑:awk '{print $1,$3}' file.txt(打印第1、3列)
  • sed - 流编辑器,批量替换/删除:sed 's/old/new/g' file.txt(全局替换)

统计与排序

  • wc - 统计信息:wc -l file.txt(只统计行数)
  • sort - 文本排序:sort -n -k2 data.txt(按第2列数值排序)
  • uniq - 去重统计:sort file.txt | uniq -c(先排序再统计重复次数)

实战组合示例

数据清洗管道cat data.csv | grep -v "^#" | cut -d',' -f1-3 | sort | uniq > cleaned.txt

  • 过滤注释行 → 提取前3列 → 排序 → 去重 → 保存

日志分析grep "ERROR" app.log | awk '{print $4}' | sort | uniq -c | sort -rn

  • 找错误行 → 提取第4列(如时间) → 统计重复 → 按频率降序

这些命令的学习曲线虽然初期有些陡峭,但一旦掌握,处理文本数据的效率会大幅提升,特别是处理GB级文件时,比GUI工具快几个数量级。

相关推荐
那起舞的日子1 小时前
Java线程池-执行顺序
java
风若飞2 小时前
Linux 环境下解决 Tomcat8 与 JDK8 配置问题
java·linux·运维·服务器·tomcat
木卫二号Coding2 小时前
Docker-构建自己的Web-Linux系统-镜像kasmweb/ubuntu-jammy-desktop
linux·ubuntu·docker
ONExiaobaijs2 小时前
Java jdk运行库合集
java·开发语言·python
加油vekiki2 小时前
linux服务器搭建docker、docker-compose
linux·服务器·docker·容器
鱼香rose__2 小时前
常用文件管理命令
linux
Coder_Boy_2 小时前
基于SpringAI的在线考试系统-教学管理与用户管理模块联合回归测试文档
java·前端·数据库·人工智能·spring boot
Knight_AL2 小时前
一文讲透 Java 中transient的用处(结合 Flink 理解)
java·python·flink
水上冰石2 小时前
测试环境生成https自签名证书tls的步骤
linux·服务器·https