Linux/Unix系统下的基础文本处理命令

Linux/Unix系统的文本处理命令之所以强大,在于它们的组合性和效率。这些命令通常遵循"做一件事并做好"的Unix哲学,每个工具专注于特定功能,通过管道机制灵活组合。

核心查看命令

  • cat - 连接并显示文件全部内容,也可合并多个文件:cat file1 file2 > combined.txt
  • less / more - 分页查看大文件,less功能更强(支持向前翻页、搜索):less huge_log.log
  • head - 查看文件开头,可指定行数:head -n 20 data.csv(看前20行)
  • tail - 查看文件末尾,实时监控:tail -f access.log(持续追踪日志变化)

搜索与过滤

  • grep - 模式匹配搜索,正则表达式支持:grep -r "error" ./logs/(递归搜索含"error"的行)
  • cut - 按字段或字符切割:cut -d',' -f1,3 data.csv(以逗号分隔,取第1、3列)
  • awk - 文本处理语言,支持复杂逻辑:awk '{print $1,$3}' file.txt(打印第1、3列)
  • sed - 流编辑器,批量替换/删除:sed 's/old/new/g' file.txt(全局替换)

统计与排序

  • wc - 统计信息:wc -l file.txt(只统计行数)
  • sort - 文本排序:sort -n -k2 data.txt(按第2列数值排序)
  • uniq - 去重统计:sort file.txt | uniq -c(先排序再统计重复次数)

实战组合示例

数据清洗管道cat data.csv | grep -v "^#" | cut -d',' -f1-3 | sort | uniq > cleaned.txt

  • 过滤注释行 → 提取前3列 → 排序 → 去重 → 保存

日志分析grep "ERROR" app.log | awk '{print $4}' | sort | uniq -c | sort -rn

  • 找错误行 → 提取第4列(如时间) → 统计重复 → 按频率降序

这些命令的学习曲线虽然初期有些陡峭,但一旦掌握,处理文本数据的效率会大幅提升,特别是处理GB级文件时,比GUI工具快几个数量级。

相关推荐
一定要AK1 小时前
Spring 入门核心笔记
java·笔记·spring
A__tao1 小时前
Elasticsearch Mapping 一键生成 Java 实体类(支持嵌套 + 自动过滤注释)
java·python·elasticsearch
KevinCyao2 小时前
java视频短信接口怎么调用?SpringBoot集成视频短信及回调处理Demo
java·spring boot·音视频
迷藏4942 小时前
**发散创新:基于Rust实现的开源合规权限管理框架设计与实践**在现代软件架构中,**权限控制(RBAC)** 已成为保障
java·开发语言·python·rust·开源
lifewange2 小时前
Linux ps 进程查看命令详解
linux·运维·服务器
功德+n2 小时前
Linux下安装与配置Docker完整详细步骤
linux·运维·服务器·开发语言·docker·centos
wuxinyan1233 小时前
Java面试题47:一文深入了解Nginx
java·nginx·面试题
新知图书3 小时前
搭建Spring Boot开发环境
java·spring boot·后端
左手厨刀右手茼蒿3 小时前
Linux 内核中的块设备驱动:从原理到实践
linux·嵌入式·系统内核