Shell 编程之正则表达式与文本处理器

正则表达式是由普通字符与元字符组成的文字模式。模式用于描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。其中普通字符包括大小写字母、数字、标点符号及一些其他符号，元字符则是指那些在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。

正则表达式一般用于脚本编程与文本编辑器中。很多文本处理器与程序设计语言均支持正则表达式,例如 Linux 系统中常见的文本处理器(grep、egrep、sed、awk)以及应用比较广泛的 Python 语言。

正则表达式具备很强大的文本匹配功能，能够在文本海洋中快速高效地处理文本。

用途

对于一般计算机用户来说，由于使用到正则表达式的机会不多，所以无法体会正则表达式的魅力，而对于系统管理员来说，正则表达式则是必备技能之一。

正则表达式对于系统管理员来说是非常重要的，系统运行过程中会产生大量的信息，这些信息有些是非常重要的，有些则仅是告知的信息。身为系统管理员如果直接看这么多的信息数据，无法快速定位到重要的信息，如"用户账号登录失败""服务启动失败"等信息。这时可以通过正则表达式快速提取"有问题"的信息。如此一来，可以将运维工作变得更加简单、方便。

目前很多软件也支持正则表达式，最常见的就是邮件服务器。在Internet 中，垃圾/广告邮件经常会造成网络塞车，如果在服务器端就将这些问题邮件提前剔除的话，客户端就会减少很多不必要的带宽消耗。而目前常用的邮件服务器 postfix 以及支持邮件服务器的相关分析软件都支持正则表达式的对比功能。将来信的标题、内容与特殊字符串进行对比，发现问题邮件就过滤掉。

除邮件服务器之外，很多服务器软件都支持正则表达式。虽然这些软件都支持正则表达式，不过字符串的对比规则还需要系统管理员来添加，因此正则表达式是系统管理员必须掌握的技能之一。

二.基础正则表达式

正则表达式的字符串表达方法根据不同的严谨程度与功能分为基本正则表达式与扩展正则表达式。基础正则表达式是常用正则表达式最基础的部分。在 Linux 系统中常见的文件处理工具中 grep 与 sed支持基础正则表达式，而 egrep 与 awk 支持扩展正则表达式。掌握基础正则表达式的使用方法，首先必须了解基本正则表达式所包含元字符的含义，下面通过 grep 命令以举例的方式逐个介绍。

1.基础表达式示例

在操作开始前需要准备一个测试文件，具体如下：

（1）.查找特定字符

查找特定字符非常简单，如执行以下命令即可从测试文件中查找出特定字符"the"所在位置。其中"-n"表示显示行号、"-ì"表示不区分大小写。命令执行后，符合匹配标准的字符，字体颜色会变为红色。

若反向选择，如查找不包含"the"字符的行，则需要通过 grep 命令的"-v"选项实现

（2）.利用中括号""来查找集合字符串

想要査找"shirt"与"short"这两个字符串时，可以发现这两个字符串均包含"sh"与"rt"。此时执行以下命令即可同时査找到"shirt"与"short"这两个字符串，其中""中无论有几个字符，都仅代表一个字符，也就是说" $io$ "表示匹配"i"或者"o"。

查找包含重复单个字符"oo"：

若查找"oo"前面不是"w"的字符串，只需要通过集合字符的反向选择" $\^$ "来实现该目的。列：

在上述命令的执行结果中发现"woood"与"wooooood"也符合匹配规则，二者均包含"w"。其实通过执于结果就可以看出，符合匹配标准的字符加粗显示，而上述结果中可以得知,"#woood #"中加粗显示的是"o0o"，而"o0"前面的"。"是符合匹配规则的。同理"#woooooood #"也符合匹配规则。

若不希望"oo"前面存在小写字母，可以使用"grep -n' $\^a-z$ oo'test.txt"命令实现，其中 a-z"表示小写字母，大写字母则通过"A-Z"表示。

查找包含数字的行可以通过"grep -n' $0-9$ 'test.txt"命令来实现。

（3）.查找行首"^"与行尾字符"$"

基础正则表达式包含两个定位元字符:"^"(行首)与"$"(行尾)。在上面的示例中，査询"the"字符串时出现了很多包含"the"的行，如果想要査询以"the"字符串为行首的行，则可以通过"^"元字符来实现。

查询以小写字母开头的行可以通过"^ $a-z$ "规则来过滤，

査询大写字母开头的行则使用"^ $A-Z$ "规则：

若查询不以字母开头的行则使用"^ $\^a-zA-Z$ "规则。

"^"符号在元字符集合"\[\]"符号内外的作用是不一样的，在"\[\]"符号内表示反向选择，在"\[\]"符号外则代表定位行首。反之，若想査找以某一特定字符结尾的行则可以使用"$"定位符。例如，执行以下命令即可实现査询以小数点(.)结尾的行。因为小数点(,)在正则表达式中也是一个元字符。所以需要用转义字符"\"将其转换成普通字符。

查询空白行：

（4）.查找任意一个字符"."与重复字符"*"

正则表达式中小数点(.)也是一个元字符，代表任意一个字符。例如执行以下命令就可以査找"w??d"的字符串，即共有四个字符，以 w开头 d 结尾。

在上述结果中,"wood"字符串"w..d"匹配规则。若想要査询 oo、ooo、ooooo 等资料，则需要使用星号(*)元字符。但需要注意的是，"*"代表的是重复零个或多个前面的单字符。"o*"表示拥有零个(即为空字符)或大于等于一个"o"的字符，因为允许空字符，所以执行"grep-n'o*' test.txt"命令会将文本中所有的内容都输出打印。如果是"oo*"，则第一个。必须存在，第二个 o 则是零个或多个。，所以凡是包含 o、oo、ooo、ooo，等的资料都符合标准。同理，若查询包含至少两个。以上的字符串，则执行"grep -n'ooo*' test.txt"命令即可。

查询以 w 开头 d 结尾，中间包含至少一个o的字符串，执行以下命令即可实现。

执行以下命令即可查询以 w开头 d 结尾，中间的字符可有可无的字符串。

执行以下命令即可查询任意数字所在行。

（5）. 查找连续字符范围"{ }"

在上面的示例中，使用了"."与"*"来设定零个到无限多个重复的字符,如果想要限制一个范围内的重复的字符串该如何实现呢?例如，查找三到五个o的连续字符，这个时候就需要使用基础正则表达式中的限定范围的字符"{}"。因为"{}"在 Shell 中具有特殊意义，所以在使用"{}"字符时，需要利用转义字符"\"，将"{}"字符转换成普通字符。

查询两个 o 的字符

查询以 w 开头以 d 结尾，中间包含 2~5 个o的字符串:

查询以 w 开头以 d 结尾，中间包含 2 个或 2 个以上0的字符串：

2.元字符总结

常见的元字符如下：

字符/符号	说明
`\`	将下一个字符标记为特殊字符、原义字符、向后引用或八进制转义符
`^`	匹配输入字符串的开始位置
`$`	匹配输入字符串的结束位置
`*`	匹配前面的子表达式零次或多次
`+`	匹配前面的子表达式一次或多次
`?`	匹配前面的子表达式零次或一次
`.`	匹配除换行符（`\n`, `\r`）之外的任何单个字符
`[a-z]`	字符范围。匹配指定范围内的任意字符
`{n}`	匹配确定的 n 次（n 为非负整数）
`{n,}`	至少匹配 n 次（n 为非负整数）
`{n,m}`	最少匹配 n 次且最多匹配 m 次（n, m 为非负整数且 n ≤ m）
`\d`	匹配一个数字字符。等价于 `[0-9]`
`\D`	匹配一个非数字字符。等价于 `[^0-9]`
`\s`	匹配任何空白字符（包括空格、制表符、换页符等）。等价于 `[ \f\n\r\t\v]`
`\S`	匹配任何非空白字符。等价于 `[^ \f\n\r\t\v]`
`\w`	匹配字母、数字、下划线。等价于 `[A-Za-z0-9_]`
`\W`	匹配非字母、数字、下划线。等价于 `[^A-Za-z0-9_]`
`\n`	匹配一个换行符
`\f`	匹配一个换页符
`\r`	匹配一个回车符

3.扩展正则表达式

通常情况下会使用基础正则表达式就已经足够了，但有时为了简化整个指令，需要使用范围更广的扩展正则表达式。例如，使用基础正则表达式査询除文件中空白行与行首为"#"之外的行(通常用于査看生效的配置文件)，执行"grep -v'^ $\*test.txt\|grep -v'\^#'"即可实现。这里需要使用管道命令来搜索两次。如果使用扩展正则表达式，可以简化为"egrep-v'\^$ |^#'test.txt"，其中，单引号内的管道符号表示或者(or)。

此外，grep 命令仅支持基础正则表达式，如果使用扩展正则表达式，需要使用 egrep 或 awk 命令。awk 命令在后面的小节进行讲解，这里我们直接使用 egrep 命令。egrep 命令与 grep 命令的用法基本相似。egrep 命令是一个搜索文件获得模式，使用该命令可以搜索文件中的任意字符串和符号，也可以搜索一个或多个文件的字符串，一个提示符可以是单个字符、一个字符串、一个字或一个句子。

与基础正则表达式类型相同，扩展正则表达式也包含多个元字符，常见的扩展正则表达式的元字符主要包括以下几个，如下表所示。

元字符	作用	示例
`+`	重复前一个字符一次或多次	`egrep -n 'wo+d' test.txt`
`?`	匹配前一个字符零次或一次	`egrep -n 'bes?t' test.txt`
`	`	使用或（or）匹配多个字符
`()`	将字符分组	`egrep -n 't(a
`()+`	匹配多个重复的组	`egrep -n 'A(xyz)+C' test.txt`

文本处理器

在 Linux/UNIX 系统中包含很多种类的文本处理器或文本编辑器,其中包括我们之前学习过的 VIM编辑器与 grep 等。而 grep，sed,awk 更是 Shell编程中经常用到的文本处理工具,被称之为 Shell编程三剑客。

一.sed工具

sed(stream EDitor)是一个强大而简单的文本解析转换工具，可以读取文本，并根据指定的条件对文本内容进行编辑(删除、替换、添加、移动等)，最后输出所有行或者仅输出处理的某些行。sed 也可以在无交互的情况下实现相当复杂的文本处理操作，被广泛应用于 she11 脚本中，用以完成各种自动化处理任务。

sed 的工作流程主要包括读取、执行和显示三个过程：

读取:sed 从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓冲区中(又称模式空间，pattern space)。

2.执行:默认情况下,所有的 sed 命令都在模式空间中顺序地执行,除非指定了行的地址,否则 sed命令将会在所有的行上依次执行。

3.显示:发送修改后的内容到输出流。在发送数据后，式空间将会被清空。

在所有的文件内容都被处理完成之前，上述过程将重复执行，直至所有内容被处理完。

注意:默认情况下所有的 sed 命令都是在模式空间内执行的，因此输入的文件并不会发生任何变化,除非是用重定向存储输出。

sed $选项$ '操作' 参数

sed $选项$ -f scriptfile 参数

常见的 sed 命令选项主要包含以下几种:

|-------------------|------------------------|
| -e或--expression= | 表示用指定命令或者脚本来处理输入的文本文件。 |
| -f或--file= | 表示用指定的脚本文件来处理输入的文本文件。 |
| -h或--help | 显示帮助。 |
| -n、--quiet或silent | 表示仅显示处理后的结果。 |
| -i | 直接编辑文本文件。 |

sed 命令操作符及用法表格

操作符	功能描述	语法格式	示例
`a`	增加：在当前行下方添加一行指定内容。	`[n1[,n2]]a\文本内容`	`sed '2a\This is a new line' test.txt`（在第2行下方添加一行）
`c`	替换：将选定行替换为指定内容。	`[n1[,n2]]c\替换内容`	`sed '5,10c\Replaced content' test.txt`（将5-10行替换为一行新内容）
`d`	删除：删除选定的行。	`[n1[,n2]]d`	`sed '3d' test.txt`（删除第3行）
`i`	插入：在当前行上方插入一行指定内容。	`[n1[,n2]]i\文本内容`	`sed '4i\Inserted line' test.txt`（在第4行上方插入一行）
`p`	打印： - 指定行时打印该行； - 未指定行时打印所有内容；非打印字符以ASCII输出（常与 `-n` 选项联用）。	`[n1[,n2]]p`	`sed -n '1,3p' test.txt`（仅打印1-3行）
`s`	替换：替换指定字符（支持正则表达式）。	`[n1[,n2]]s/原内容/替换内容/[flags]`	`sed 's/foo/bar/g' test.txt`（全局替换所有`foo`为`bar`）
`y`	字符转换：按字符一一映射转换（类似`tr`命令）。	`[n1[,n2]]y/原字符集/目标字符集/`	`sed 'y/abc/ABC/' test.txt`（将`a→A`、`b→B`、`c→C`）

（1）.输出符合条件的文本（p表示正常输出）

（2）.删除符合条件的文本（d）

因为后面的示例还需要使用测试文件 test.txt，所以在执行删除操作之前需要先将测试文件备份。以下示例分别演示了 sed 命令的几种常用删除用法。

下面命令中 nl命令用于计算文件的行数，结合该命令可以更加直观地査看到命令执行的结果。

注意:若是删除重复的空行，即连续的空行只保留一个，执行"sed -e'/^ $/{n;/\^$ /d}'test.txt"命令即可实现。其效果与"cat-s test.txt"相同，n 表示读下一行数据。

（3）.替换符合条件的文本

在使用 sed 命令进行替换操作时需要用到 s(字符串替换)、c(整行/整块替换)、y(字符转换)命令选项，常见的用法如下所示。

（4）.迁移符合条件的文本

参数	功能描述	语法格式	示例
`H`	复制到剪贴板：将匹配的行追加到模式空间（剪贴板）的末尾。	`[地址范围]H`	`sed '/pattern/H' file`（将匹配 `pattern` 的行复制到剪贴板）
`g`	覆盖粘贴：用剪贴板内容覆盖当前模式空间的内容。	`[地址范围]g`	`sed '1g' file`（用剪贴板内容覆盖第1行）
`G`	追加粘贴：将剪贴板内容追加到当前模式空间的内容后（加换行符）。	`[地址范围]G`	`sed '$G' file`（在文件末尾追加剪贴板内容）
`w`	保存为文件：将匹配的行写入指定文件。	`[地址范围]w 文件名`	`sed '/error/w error.log' file`（将含 `error` 的行保存到 `error.log`）
`r`	读取文件：将指定文件的内容插入到匹配行之后。	`[地址范围]r 文件名`	`sed '3r insert.txt' file`（在第3行后插入 `insert.txt` 的内容）
`a`	追加内容：在指定行后追加文本（与基础操作中的 `a` 相同）。	`[地址范围]a\文本内容`	`sed '2a\This is appended' file`（在第2行后追加一行文本）

//在第 3 行后插入一个新行,内容为 New

//在第 3 行后插入多行内容,中间的\n 表示换行

（5）.使用脚本编辑文件

使用 sed 脚本将多个编辑指令存放到文件中(每行一条编辑指令)，通过"-f"选项来调用。例如执行以下命令即可将第 1~5 行内容转移至第 17 行后。

（6）.sed 直接操作文件示例

编写一个脚本，用来调整 vsftpd 服务配置，要求禁止匿名用户，但允许本地用户(也允许写入)。

二.awk工具

分类	语法/指令	功能描述	示例
基础格式	`awk '模式或条件 {动作}' 文件1 文件2...`	逐行扫描文件，对匹配模式或条件的行执行动作（如打印、计算等）。	`awk '/error/ {print $0}' log.txt`（打印包含"error"的行）
脚本调用	`awk -f 脚本文件文件1 文件2...`	从指定脚本文件中读取 `awk` 指令处理目标文件。	`awk -f filter.awk data.txt`（用 `filter.awk` 脚本处理数据）
常用选项	`-F`	指定字段分隔符（默认空格/TAB）。	`awk -F: '{print $1}' /etc/passwd`（以冒号分隔，打印第1列）
	`-v`	定义变量并传递给 `awk` 程序。	`awk -v n=5 '{print $n}' file.txt`（打印第5列）
模式类型	`正则表达式`	匹配包含指定模式的行。	`awk '/^[0-9]+$/ {print}' file.txt`（打印纯数字行）
	`条件表达式`	根据逻辑条件筛选行（如比较数值、字符串）。	`awk '$3 > 100 {print $1}' data.txt`（打印第3列大于100的行的第1列）
	`BEGIN` / `END`	在处理前 /后执行的动作（如初始化、汇总）。	`awk 'BEGIN{sum=0} {sum+=$1} END{print sum}' file.txt`（计算第1列总和）
内置变量	`$0`	当前行的全部内容。	`awk '{print $0}' file.txt`（打印整行）
	`$1, $2, ..., $NF`	当前行的第1、2...N个字段（`NF` 表示字段总数）。	`awk '{print $1, $NF}' file.txt`（打印第1列和最后1列）
	`NR`	当前处理的行号（从1开始）。	`awk '{print NR, $0}' file.txt`（打印行号及内容）
	`FS` / `OFS`	输入/输出字段分隔符（`FS` 等效 `-F`，`OFS` 控制输出分隔符）。	`awk 'BEGIN{OFS=";"} {print $1,$2}' file.txt`（输出以分号分隔）
常用动作	`print`	打印指定内容（字段、变量或字符串）。	`awk '{print "Line:", NR, "Data:", $0}' file.txt`
	`printf`	格式化输出（类似C语言的 `printf`）。	`awk '{printf "%-10s %d\n", $1, $2}' file.txt`（左对齐字符串，右对齐数字）
	`if-else`	条件分支处理。	`awk '{if ($1 > 50) print "High"; else print "Low"}' data.txt`

前面提到 sed 命令常用于一整行的处理,而 awk 比较倾向于将一行分成多个"字段"然后再进行处理，且默认情况下字段的分隔符为空格或 tab 键。awk 执行结果可以通过 print 的功能将字段数据打印显示。在使用 awk 命令的过程中,可以使用逻辑操作符"&&"表示"与"、"|"表示"或"、"!"表示"非";还可以进行简单的数学运算，如+、-、*、/、%、^分别表示加、减、乘、除、取余和乘方。

在 Linux 系统中/etc/passwd 是一个非常典型的格式化文件，各字段间使用":"作为分隔符隔开，Linux 系统中的大部分日志文件也是格式化文件,从这些文件中提取相关信息是运维的日常工作内容之一。若需要查找出/etc/passwd 的用户名、用户 ID、组 ID 等列，执行以下 awk 命令即可。

awk 从输入文件或者标准输入中读入信息,与 sed 一样,信息的读入也是逐行读取的。不同的是 awk将文本文件中的一行视为一个记录，而将一行中的某一部分(列)作为记录中的一个字段(域)。为了操作这些不同的字段，awk 借用 shell中类似于位置变量的方法，用 $1、$ 2、 $3...顺序地表示行(记录)中的不同字段。另外 awk 用$ 0 表示整个行(记录)。

不同的字段之间是通过指定的字符分隔。awk 默认的分隔符是空格。awk 允许在命令行中用"-F 分隔符"的形式来指定分隔符。在上述示例中，awk 命令对/etc/passwd 文件的处理过程如下图所示。

变量	功能描述	默认值	示例
`FS`	输入字段分隔符（Field Separator），指定每行文本的分隔符号。	空格或制表符（`\t`）	`awk 'BEGIN{FS=":"} {print $1}' /etc/passwd`（以冒号分隔，打印第1列）
`NF`	当前行的字段数量（Number of Fields），即列数。	无	`awk '{print NF, $0}' file.txt`（输出每行列数及内容）
`NR`	当前处理的行号（Number of Record），从1开始计数。	无	`awk '{print NR, $1}' file.txt`（输出行号及第1列）
`$0`	当前行的完整内容。	无	`awk '{print $0}' file.txt`（打印整行）
`$n`	当前行的第`n`个字段（列），如`$1`表示第1列，`$NF`表示最后一列。	无	`awk '{print $1, $NF}' file.txt`（打印第1列和最后1列）
`FILENAME`	当前被处理的文件名。	无	`awk '{print FILENAME, NR, $0}' file.txt`（输出文件名、行号及内容）
`RS`	输入记录分隔符（Record Separator），指定行分隔符。	换行符（`\n`）	`awk 'BEGIN{RS=";"} {print $0}' data.txt`（以分号作为行分隔符）