Shell编程之正则表达式与文本处理器

正则表达式对于系统管理员来说是非常重要的，系统运行过程中会产生大量的信息，这些信息有些是非常重要的，有些则仅是告知的信息。身为系统管理员如果直接看这么多的信息数据，无法快速定位到重要的信息，如"用户账号登录失败""服务启动失败"等信息。这时可以通过正则表达式快速提取"有问题"的信息。如此一来，可以将运维工作变得更加简单、方便。

二：基础正则表达式

1.基础正则表达式示例

提前准备一个名为test.txt 的测试文件，文件内容如下所示。

（1）查找特定字符

如执行以下命令即可从test.txt文件中查找出特定字符"the"所在位置其中"-n"表示显示行号、"-i"表示不区分大小写。命令执行后，符合匹配标准的字符。(本章中全部通过加粗显示代替)。

若反向选择，如查找不包含"the"字符的行，只需要通过grep命令的"-v"选项，并配合"-n"一起使用行号。

（2）利用"" 来查找集合字符

想要查找"shirt"与"short"这两个字符串时，可以发现这两个字符串均包含"sh"与"rt"。

此时执行以下命令即可同时查找到"shirt"与"short"这两个字符串，其中""中无论有几个字符，都仅代表一个字符，也就是说" $io$ "表示匹配"i"或者"o"。

若要查找包含重复单个字符"oo"时：只需执行以下命令：

若要查找"oo"前面不是"w"的字符串，需要通过集合字符的反向选择" $\^$ "来实现该目的。

例如：在文本中查找"oo"前面不是"w"的字符串。

若不希望"oo"前面存在小写字母可以通过 $\^a-z$ 来表示具体命令如下：

查找包含数字的行：

（3）查找行首"^"与行尾"$"

基础正则表达式包含两个定位元字符:"^(行首)与"$"(行尾)。在上面的示例中，查询"the"字符串时出现了很多包含"the"的行，如果想要查询以"the"字符串为行首的行，则可以通过"^"元字符来实现。

查询以小写字母开头的行可以通过"^ $a-z$ "规则来过滤:

查询大写字母开头的行则使用"^ $A-Z$ "规则:

若查询不以字母开头的行则使用"^ $\^a-zA-Z$ "规则:

"^"符号在元字符集合""符号内外的作用是不一样的，在"\[\]"符号内表示反向选择，在""符号外则代表定位行首。反之，若想查找以某一特定字符结尾的行则可以使用"$"定位符。

例如：执行以下命令即可实现查询以小数点(.)结尾的行。因为小数点(,)在正则表达式中也是一个元字符，所以在这里需要用转义字符"\"将具有特殊意义的字符转化成普通字符。

（4）查找任意字符"."与重复字符"*"

在正则表达式中"."也是一个元字符，代表任意一个字符

例如：执行以下命令可以查找"w？？d"的字符，以w开头 d结尾

执行以下命令即可查询以w开头d结尾，中间的字符可有可无的字符串。

执行以下命令即可查询任意数字所在的行。

（5）查找连续字符范围"{ }"

如果想要限制一个范围内的重复的字符串该如何实现呢?

例如，查找三到五个o的连续字符，这个时候就需要使用基础正则表达式中的限定范围的字符"(}"。因为"()"在Shell中具有特殊意义，所以在使用"{}"字符时，需要利用转义字符""，将"{}"字符转换成普通字符。"{}"字符的使用方法如下所示。

查询两个o的字符

查询以w开头以d结尾，中间包含2~5个o的字符串

查询以w开头以d结尾，中间包含2个或2个以上o的字符串

2.元字符总结

|---------|-------------------------------------------------|
| 字符 | 说明 |
| \ | 将下一个字符标记为一个特殊字符，或一个原义字符，或向后引用，或一个八进制转义符 |
| ^ | 匹配输入字符开始的位置 |
| $ | 匹配输入字符的结束为止 |
| * | 匹配前面的子表达式0次或者多次 |
| + | 匹配前面的子表达式一次或多次 |
| ？ | 匹配前面的子表达式0次或者一次 |
| . | 匹配除换行字符（\n \r）之外的任何字符 |
| $a-z$ | 字符范围，匹配指定范围内的任意字符 |
| {n} | n是一个非负整数，匹配确定的n次 |
| {n,} | n是一个非负整数，至少匹配n次 |
| {n,m} | n，m均为非负整数，其中n<=m，最少匹配n次，最多匹配m次 |
| \d | 匹配一个数字字符，等价于 $0-9$ |
| \D | 匹配一个非数字字符，等价于 $\^0-9$ |
| \s | 匹配任何空白字符，包括空格、制表符、换页符等等。等价于 $\\f\\n\\r\\t\\v$ 。 |
| \S | 匹配任何非空白字符。等价于 $\^\\f\\n\\r\\t\\v$ 。 |
| \w | 匹配字母、数字、下划线。等价于" $A-Za-z0-9_$ '。 |
| \W | 匹配非字母、数字、下划线。等价于' $\^A-Za-z0-9_$ '。 |
| \n | 匹配一个换行符 |
| \f | 匹配-一个换页符 |
| \r | 匹配一个回车符 |

3.扩展正则表达式

通常情况下会使用基础正则表达式就已经足够了，但有时为了简化整个指令，需要使用范围更广的扩展正则表达式。

例如，使用基础正则表达式查询除文件中空白行与行首为"#"之外的行(通常用于查看生效的配置文件)，执行"grep-v'^ $'test.txtlgrep-V'\^#'"即可实现。这里需要使用管道命令来搜索两次。如果使用扩展正则表达式，可以简化为"egrep-V'\^$ |^#'test.txt"，其中，单引号内的管道符号表示或者(or)。

与基础正则表达式类型相同，扩展正则表达式也包含多个元字符，常见的扩展正则表达式的元字符主要包括以下几个，如下表所示。

|-----|-----------------------------------------------------------------------------------------------------------------------------|
| 元字符 | 作用与示例 |
| + | 作用：重复一个或一个以上的前一个字符示例:执行"egrep -n'wo+d' test.txt"命令，即可査询"wood""woood""woo00oood"等字符串 |
| ？ | 作用:零个或者一个的前一个字符示例:执行"egrep -n'bes?t' test.txt"命令，即可査询"bet""best"这两个字符串 |
| | | 作用:使用或者(or)的方式找出多个字符示例:执行"egrep -n'ofis|on'test.txt"命令即可査询"of"或者"if或者"on"字符串 |
| （） | 作用:查找"组"字符串示例:"egrep -n"(ale)st test.txt"。"tast"与"test因为这两个单词的"t"与"st"是重复的，所以将"a"与"e列于"0"符号当中，并以""分隔，即可查询"tast"或者"test"字符串 |
| （）+ | 作用:辨别多个重复的组示例:"egrep -n'A(xyZ)+C'test.tx!"。该命令是査询开头的"A"结尾是"C"，中间有一个以上的"xyZ"字符串的意思 |

二：文本处理器

1.sed工具

sed(stream EDitor)是一个强大而简单的文本解析转换工具，可以读取文本，并根据指定的条件对文本内容进行编辑(删除、替换、添加、移动等)，最后输出所有行或者仅输出处理的某些行。sed也可以在无交互的情况下实现相当复杂的文本处理操作，被广泛应用于She11脚本中，用以完成各种自动化处理任务。

sed 的工作流程主要包括读取、执行和显示三个过程。