Linux/Unix系统下的基础文本处理命令

Linux/Unix系统的文本处理命令之所以强大,在于它们的组合性和效率。这些命令通常遵循"做一件事并做好"的Unix哲学,每个工具专注于特定功能,通过管道机制灵活组合。

核心查看命令

  • cat - 连接并显示文件全部内容,也可合并多个文件:cat file1 file2 > combined.txt
  • less / more - 分页查看大文件,less功能更强(支持向前翻页、搜索):less huge_log.log
  • head - 查看文件开头,可指定行数:head -n 20 data.csv(看前20行)
  • tail - 查看文件末尾,实时监控:tail -f access.log(持续追踪日志变化)

搜索与过滤

  • grep - 模式匹配搜索,正则表达式支持:grep -r "error" ./logs/(递归搜索含"error"的行)
  • cut - 按字段或字符切割:cut -d',' -f1,3 data.csv(以逗号分隔,取第1、3列)
  • awk - 文本处理语言,支持复杂逻辑:awk '{print $1,$3}' file.txt(打印第1、3列)
  • sed - 流编辑器,批量替换/删除:sed 's/old/new/g' file.txt(全局替换)

统计与排序

  • wc - 统计信息:wc -l file.txt(只统计行数)
  • sort - 文本排序:sort -n -k2 data.txt(按第2列数值排序)
  • uniq - 去重统计:sort file.txt | uniq -c(先排序再统计重复次数)

实战组合示例

数据清洗管道cat data.csv | grep -v "^#" | cut -d',' -f1-3 | sort | uniq > cleaned.txt

  • 过滤注释行 → 提取前3列 → 排序 → 去重 → 保存

日志分析grep "ERROR" app.log | awk '{print $4}' | sort | uniq -c | sort -rn

  • 找错误行 → 提取第4列(如时间) → 统计重复 → 按频率降序

这些命令的学习曲线虽然初期有些陡峭,但一旦掌握,处理文本数据的效率会大幅提升,特别是处理GB级文件时,比GUI工具快几个数量级。

相关推荐
黑白园1 分钟前
【环境搭建】虚拟机及Ubuntu安装所需的电脑硬件资源
linux·ubuntu
阿文的代码库2 分钟前
算法专题:独特的电子邮件地址
linux·运维·算法
代码AC不AC7 分钟前
【Linux】线程同步
linux·线程·线程同步
Javatutouhouduan7 分钟前
2026年Java面试核心讲(终极版)全网首次开源!
java·jvm·java多线程·java面试·后端开发·java程序员·java八股文
摇滚侠12 分钟前
MyBatis 入门到项目实战 MyBatis 各种查询功能 30-33
java·后端·spring·maven·intellij-idea·mybatis
糖果店的幽灵1 小时前
软件测试接口测试从入门到精通:curl命令行工具
linux·软件测试·接口测试·命令行·curl
兰令水2 小时前
leecodecode【面试150】【2026.6.14打卡-java版本】
java·算法·面试
yaoxin5211238 小时前
434. Java 日期时间 API - Period 基于日期的时间段
java·开发语言·python
毒爪的小新9 小时前
Linux 环境极速部署 vLLM:从零搭建生产级大模型推理服务
linux·人工智能·ai·语言模型·vllm
鹤落晴春9 小时前
RH124问答3:从命令行管理文件
linux·运维·服务器