文本处理三剑客: grep、sed、awk使用指南

在 Linux 系统的文本处理领域，grep、sed和awk堪称 "三剑客"，它们各自具备强大的功能，能够帮助我们高效地完成各种文本处理任务。

一、grep：文本搜索利器

grep命令主要用于在文件或标准输入中搜索指定的字符串或正则表达式，并输出匹配的行。它的应用场景非常广泛，例如在大量日志文件中查找特定错误信息、在代码文件中搜索某个函数或变量的使用位置、从配置文件中提取相关配置项等。

基本搜索 ：使用grep命令加上要搜索的字符串和文件名，即可在文件中搜索包含该字符串的行。例如，在test.txt文件中搜索字符串 "hello"，命令为：
perl 复制代码
```
grep "hello" test.txt
```
忽略大小写搜索 ：加上-i选项，能在搜索时忽略大小写。如在test.txt中搜索 "Hello"，不区分大小写：
perl 复制代码
```
grep -i "Hello" test.txt
```
递归搜索目录下所有文件 ：-r选项可递归搜索指定目录及其子目录下的所有文件。比如在/home/user/documents目录下搜索 "example"：
arduino 复制代码
```
grep -r "example" /home/user/documents
```
显示行号 ：-n选项会在输出结果中显示匹配行的行号。在test.txt中搜索并显示行号：
perl 复制代码
```
grep -n "world" test.txt
```

sed（Stream Editor）是一种流编辑器，它能够对文本进行增、删、改、查等操作，常用于批量修改文件内容、格式化文本、删除文本中的特定行等场景。比如在处理大量配置文件时，统一修改其中的参数；或者对日志文件进行预处理，去除不需要的行。

删除指定行 ：使用d命令可以删除匹配的行。例如，删除test.txt中的第 3 行：
arduino 复制代码
```
sed '3d' test.txt
```
替换字符串 ：s命令用于字符串替换。将test.txt中的 "old" 替换为 "new"：
arduino 复制代码
```
sed's/old/new/g' test.txt
```

其中，g表示全局替换，如果不加g，则只替换每行中第一个匹配的字符串。

插入文本 ：i命令用于在匹配行之前插入文本，a命令用于在匹配行之后插入文本。在test.txt中，在包含 "target" 的行之前插入 "inserted before"：
arduino 复制代码
```
sed '/target/i inserted before' test.txt
```
修改文件内容（直接修改文件） ：加上-i选项，可以直接修改文件内容。如将test.txt中的 "hello" 替换为 "hi" 并保存修改：
bash 复制代码
```
sed -i's/hello/hi/g' test.txt
```

awk是一种强大的文本处理工具，它不仅可以搜索文本，还能对文本进行复杂的格式化、统计分析等操作。例如，统计日志文件中不同 IP 地址的访问次数、从 CSV 文件中提取特定列的数据、对文本进行排序和汇总等。

按列提取数据 ：awk默认以空格或制表符为分隔符，通过指定列号可以提取相应列的数据。例如，从data.txt文件中提取第 2 列的数据：
kotlin 复制代码
```
awk '{print \$2}' data.txt
```
指定分隔符 ：使用-F选项可以指定分隔符。假设data.csv文件以逗号分隔，提取第 3 列数据：
kotlin 复制代码
```
awk -F ',' '{print \$3}' data.csv
```
条件判断与输出 ：awk支持条件判断语句。在test.txt中，输出长度大于 10 的行：
scss 复制代码
```
awk 'length(\$0) > 10' test.txt
```
统计分析 ：可以进行各种统计操作。比如统计access.log中每个 IP 地址的访问次数：
scss 复制代码
```
awk '{count\[\$1]++} END {for (ip in count) print ip, count\[ip]}' access.log
```

grep、sed和awk在文本处理中各有所长，灵活运用这三个命令，能够大大提高我们在 Linux 环境下处理文本的效率。在实际工作中，根据具体的需求选择合适的命令，甚至将它们组合使用，往往能达到事半功倍的效果。

命令	参数	功能描述	示例
grep	-i	忽略大小写搜索	grep -i "Hello" test.txt
	-r	递归搜索目录下所有文件	grep -r "example" /home/user/documents
	-n	显示匹配行的行号	grep -n "world" test.txt
	-v	反向匹配，输出不包含指定字符串的行	grep -v "apple" test.txt
	-l	仅显示包含匹配内容的文件名	grep -l "banana" *
sed	d	删除匹配的行	sed '3d' test.txt
	s	字符串替换，g表示全局替换	sed's/old/new/g' test.txt
	i	在匹配行之前插入文本	sed '/target/i inserted before' test.txt
	a	在匹配行之后插入文本	sed '/target/a inserted after' test.txt
	-i	直接修改文件内容	sed -i's/hello/hi/g' test.txt
	p	打印匹配的行，常与-n配合使用	sed -n '/print/p' test.txt
awk	-F	指定输入字段分隔符	awk -F ',' '{print $3}' data.csv
	-v	设置变量，如设置输出字段分隔符OFS	awk -v OFS=';' '{print $1,$ 3}' data.txt
	$n	提取第n列数据	awk '{print $2}' data.txt
	length($0)	获取整行文本的长度	awk 'length($0) > 10' test.txt