Linux/Unix系统的文本处理命令之所以强大,在于它们的组合性和效率。这些命令通常遵循"做一件事并做好"的Unix哲学,每个工具专注于特定功能,通过管道机制灵活组合。
核心查看命令
cat- 连接并显示文件全部内容,也可合并多个文件:cat file1 file2 > combined.txtless/more- 分页查看大文件,less功能更强(支持向前翻页、搜索):less huge_log.loghead- 查看文件开头,可指定行数:head -n 20 data.csv(看前20行)tail- 查看文件末尾,实时监控:tail -f access.log(持续追踪日志变化)
搜索与过滤
grep- 模式匹配搜索,正则表达式支持:grep -r "error" ./logs/(递归搜索含"error"的行)cut- 按字段或字符切割:cut -d',' -f1,3 data.csv(以逗号分隔,取第1、3列)awk- 文本处理语言,支持复杂逻辑:awk '{print $1,$3}' file.txt(打印第1、3列)sed- 流编辑器,批量替换/删除:sed 's/old/new/g' file.txt(全局替换)
统计与排序
wc- 统计信息:wc -l file.txt(只统计行数)sort- 文本排序:sort -n -k2 data.txt(按第2列数值排序)uniq- 去重统计:sort file.txt | uniq -c(先排序再统计重复次数)
实战组合示例
数据清洗管道 :cat data.csv | grep -v "^#" | cut -d',' -f1-3 | sort | uniq > cleaned.txt
- 过滤注释行 → 提取前3列 → 排序 → 去重 → 保存
日志分析 :grep "ERROR" app.log | awk '{print $4}' | sort | uniq -c | sort -rn
- 找错误行 → 提取第4列(如时间) → 统计重复 → 按频率降序
这些命令的学习曲线虽然初期有些陡峭,但一旦掌握,处理文本数据的效率会大幅提升,特别是处理GB级文件时,比GUI工具快几个数量级。