Linux/Unix系统下的基础文本处理命令

先做个垃圾出来………2026-01-23 11:37

Linux/Unix系统的文本处理命令之所以强大，在于它们的组合性和效率。这些命令通常遵循"做一件事并做好"的Unix哲学，每个工具专注于特定功能，通过管道机制灵活组合。

核心查看命令

cat - 连接并显示文件全部内容，也可合并多个文件：cat file1 file2 > combined.txt
less / more - 分页查看大文件，less功能更强（支持向前翻页、搜索）：less huge_log.log
head - 查看文件开头，可指定行数：head -n 20 data.csv（看前20行）
tail - 查看文件末尾，实时监控：tail -f access.log（持续追踪日志变化）

搜索与过滤

grep - 模式匹配搜索，正则表达式支持：grep -r "error" ./logs/（递归搜索含"error"的行）
cut - 按字段或字符切割：cut -d',' -f1,3 data.csv（以逗号分隔，取第1、3列）
awk - 文本处理语言，支持复杂逻辑：awk '{print $1,$3}' file.txt（打印第1、3列）
sed - 流编辑器，批量替换/删除：sed 's/old/new/g' file.txt（全局替换）

统计与排序

wc - 统计信息：wc -l file.txt（只统计行数）
sort - 文本排序：sort -n -k2 data.txt（按第2列数值排序）
uniq - 去重统计：sort file.txt | uniq -c（先排序再统计重复次数）

实战组合示例

数据清洗管道 ：cat data.csv | grep -v "^#" | cut -d',' -f1-3 | sort | uniq > cleaned.txt

过滤注释行 → 提取前3列 → 排序 → 去重 → 保存

日志分析 ：grep "ERROR" app.log | awk '{print $4}' | sort | uniq -c | sort -rn

找错误行 → 提取第4列（如时间） → 统计重复 → 按频率降序

这些命令的学习曲线虽然初期有些陡峭，但一旦掌握，处理文本数据的效率会大幅提升，特别是处理GB级文件时，比GUI工具快几个数量级。

上一篇：比较 RPA 与 AI Agent 的异同，两者有何关系？

下一篇：【计算机视觉系列】：钢结构构件识别与定位_yolo11-seg-RVB改进

热门推荐

01GitHub 镜像站点 02Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 03openclaw配置教程（linux+局域网ollama）04UV安装并设置国内源 05OpenClaw Chrome扩展使用教程 - 浏览器中继控制 06Linux下V2Ray安装配置指南 07Claude Code Skills 实用使用手册 08Vue-skills的中文文档 09让 Trae IDE 智能体 “读懂”文档 Excel+PDF+DOCX ：mcp-documents-reader 工具使用指南 10一文了解国产算子编程语言 TileLang，TileLang 对国产开源生态的影响与启示