Shell编程之正则表达式与文本处理器

正则表达式
- - 1：正则表达式的定义
  - 2：正则表达式的作用
基础正则表达式
- - 1：基础正则表达式示例
  - - （1）查找特定字符
    - [（2）利用中括号""来查找集合字符](#（2）利用中括号“[ ]”来查找集合字符)
    - [（3）查找行首"^"与行尾字符" $"](#（3）查找行首“^”与行尾字符“$ ”)
    - [（4）查找任意一个字符" . "与从重复字符" * "](#（4）查找任意一个字符“ . ”与从重复字符“ * ”)
    - [（5）查找连续字符范围"{ }"](#（5）查找连续字符范围“{ }”)
  - 2：元字符总结
  - 3：扩展正则表达式
文本处理器

正则表达式

1：正则表达式的定义

正则表达式又称正规表达式、常规表达式。在代码中常简写为regex、regexp 或 RE。正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，简单来说,是一种匹配字符串的方法,通过一些特殊符号，实现快速查找、删除、替换某个特定字符串。

正则表达式是由普通字符与元字符组成的文字模式。模式用于描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。其中普通字符包括大小写字母、数字、标点符号及一些其他符号，元字符则是指那些在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现式。

正则表达式一般用于脚本编程与文本编辑器中。很多文本处理器与程序设计语言均支持正则表达式,例如 Linux 系统中常见的文本处理器(grep、egrep、sed、awk)以及应用比较广泛的 Python 语言。正则表达式具备很强大的文本匹配功能，能够在文本海洋中快速高效地处理文本。

2：正则表达式的作用

正则表达式对于系统管理员来说是非常重要的，系统运行过程中会产生大量的信息，这些信息有些是非常重要的，有些则仅是告知的信息。身为系统管理员如果直接看这么多的信息数据，无法快速定位到重要的信息，如"用户账号登录失败""服务启动失败"等信息。这时可以通过正则表达式快速提取"有问题"的信息。如此一来，可以将运维工作变得更加简单、方便。

基础正则表达式

正则表达式的字符串表达方法根据不同的严谨程度与功能分为基本正则表达式与扩展正则表达式。基础正则表达式是常用正则表达式最基础的部分。在Linux 系统中常见的文件处理工具中 grep 与 sed支持基础正则表达式，而 egrep 与 awk支持扩展正则表达式。掌握基础正则表达式的使用方法，首先必须了解基本正则表达式所包含元字符的含义，下面通过 grep 命令以举例的方式逐个介绍。

1：基础正则表达式示例

需要准备一个test文件：

（1）查找特定字符

查找特定字符非常简单，如执行以下命令即可从 test.txt 文件中査找出特定字符"the"所在位置。其中"-n"表示显示行号、"-i"表示不区分大小写。命令执行后，符合匹配标准的字符，字体颜色会变为红色(本章中全部通过加粗显示代替)。

若反向选择，如查找不包含"the"字符的行，则需要通过 grep 命令的"-v"选项实现，并配合"-n"起使用显示行号。

（2）利用中括号""来查找集合字符

想要査找"shirt"与"short"这两个字符串时，可以发现这两个字符串均包含"sh"与"rt"。此时执行以下命令即可同时査找到"shirt"与"short"这两个字符串，其中""中无论有几个字符，都仅代表一个字符，也就是说" $io$ "表示匹配"i"或者"o"

查找包含重复单个字符"oo"时：

若查找"oo"前面不是"w"的字符串，只需要通过集合字符的反向选择" $\^$ "来实现该目的。例如执行"grep -n' $\^w$ oo'test.txt"命令表示在 test.txt 文本中査找"oo"前面不是"w"的字符串。

在上述命令的执行结果中发现"woood"与"wooooood"也符合匹配规则，二者均包含"w"。其实通过执行结果就可以看出，符合匹配标准的字符加粗显示，而上述结果中可以得知,"#woood #"中加粗显示的是"ooo"，而"oo"前面的"。"是符合匹配规则的。同理"#woooooood #"也符合匹配规则。

若不希望"oo"前面存在小写字母，可以使用"grep -n' $\^a-z$ oo'test.txt"命令实现，其中 a-z"表示小写字母，大写字母则通过"A-Z"表示。

查找包含数字的行可以通过"grep -n' $0-9$ 'test.txt"命令来实现。

（3）查找行首"^"与行尾字符"$"

基础正则表达式包含两个定位元字符: " ^ "(行首)与"$"(行尾)。在上面的示例中，査询"the"字符串时出现了很多包含"the"的行，如果想要査询以"the"字符串为行首的行，则可以通过"^"元字符来实现。

查询以小写字母开头的行可以通过" ^ $a-z$ "规则来过滤，查询大写字母开头的行则使用"^ $A-Z$ "规则，若查询不以字母开头的行则使用" ^ $\^a-zA-Z$ "规则。

"^"符号在元字符集合""符号内外的作用是不一样的，在""符号内表示反向选择，在""符号外则代表定位行首。反之，若想查找以某一特定字符结尾的行则可以使用"$"定位符。例如，执行以下命令即可实现查询以小数点(.)结尾的行。因为小数点(.)在正则表达式中也是一个元字符，所以在这里需要用转义字符"\"将具有特殊意义的字符转化成普通字符。

查询空白行

（4）查找任意一个字符" . "与从重复字符" * "

前面提到，在正则表达式中小数点(.)也是一个元字符，代表任意一个字符。例如执行以下命令就可以査找"w??d"的字符串，即共有四个字符，以 w开头 d 结尾。

在上述结果中,"wood"字符串"w...d"匹配规则。若想要査询 00、000、o0000 等资料，则需要使用星号()元字符。但需要注意的是," "代表的是重复零个或多个前面的单字符。"o*"表示拥有零个(即为空字符)或大于等于一个"o"的字符，因为允许空字符，所以执行"grep-n'o*' test.txt"命令会将文本中所有的内容都输出打印。如果是"oo*"，则第一个o必须存在，第二个o 则是零个或多个 o，所以凡是包含o、oo、ooo、ooo，等的资料都符合标准。同理，若査询包含至少两个 o 以上的字符串，则执行"grep -n'ooo*' test.txt"命令即可。

查询以 w开头 d结尾，中间包含至少一个o的字符串

査询以 w开头d结尾，中间的字符可有可无的字符串

查询任意数字所在行

（5）查找连续字符范围"{ }"

在上面的示例中，使用了"."与"*"来设定零个到无限多个重复的字符,如果想要限制一个范围内的重复的字符串该如何实现呢?例如，查找三到五个o的连续字符，这个时候就需要使用基础正则表达式中的限定范围的字符"{ }"。因为"{ }"在 shell 中具有特殊意义，所以在使用"{ }"字符时，需要利用转义字符"\"，将"{ }"字符转换成普通字符。"{ }"字符的使用方法如下所示。

查找三个o的字符

查找以w开头以d结尾，中间包含2~5个o的字符串

查询以 w 开头以 d 结尾，中间包含 2 个或 2 个以上o的字符串。

2：元字符总结

通过上面几个简单的示例，可以了解到常见的基础正则表达式的元字符主要包括以下几个，如下表所示。

字符	说明
\	将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符
^	匹配输入字符串的开始位置
$	匹配输入字符串的结束位置
*	匹配前面的子表达式零次或多次
+	匹配前面的子表达式一次或多次
?	匹配前面的子表达式零次或一次
.	匹配除换行符(\n、\r)之外的任何单个字符
$a-z$	字符范围。匹配指定范围内的任意字符
{n}	n是一个非负整数,匹配确定的n次
{n.}	n 是一个非负整数,至少匹配n 次
{n.m}	m 和 n均为非负整数，其中n<=m。最少匹配n次且最多匹配m次
\d	匹配一个数字字符。等价于 $0-9$
\D	匹配一个非数字字符。等价于 $\^0-9$
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 $\\fn\\r\\t\\v$
\S	匹配任何非空白字符。等价于 $\^\\An\\rt\\v$
\w	匹配字母、数字、下划线。等价于' $A-Za-z0-9-$ '
\W	匹配非字母、数字、下划线。等价于' $\^A-Za-z0-9_$ '
\n	匹配一个换行符
\f	匹配一个换页符
\r	匹配一个回车符

3：扩展正则表达式

通常情况下会使用基础正则表达式就已经足够了，但有时为了简化整个指令，需要使用范围更广的扩展正则表达式。例如，使用基础正则表达式査询除文件中空白行与行首为"#"之外的行(通常用于查看生效的配置文件)，执行"grep -v'^ $'test.txt\| grep -v'\^ #'"即可实现。这里需要使用管道命令来搜索两次。如果使用扩展正则表达式，可以简化为"egrep-v'\^$ |^#'test.txt"，其中，单引号内的管道符号表示或者(or)。

元字符	作用与示例
+	z作用:重复一个或者一个以上的前一个字符示例:执行"egrep -n'wo+d' zz.txt"命令，即可査询"wood""woood""woo000ood"等字符串
?	作用:零个或者一个的前一个字符示例:执行"egrep -n'bes?t' zz.txt"命令，即可査询"bet""best"这两个字符串
I	作用:使用或者(or)的方式找出多个字符示例:执行"egrep -n'ofis
( )	作用:查找"组"字符串示例:"egrep -n 't(a
( )+	作用:辨别多个重复的组示例:"egrep -n'A(xyz)+C zz.tx"。该命令是査询开头的"A"结尾是"C"，中间有一个以上的"xyz"字符串的意思

文本处理器

在 Linux/UNIX 系统中包含很多种类的文本处理器或文本编辑器,其中包括我们之前学习过的 VIM编辑器与 grep 等。而 grep，sed，awk 更是 Shell 编程中经常用到的文本处理工具,被称之为 Shel]编程三剑客。

1：sed工具

sed(stream EDitor)是一个强大而简单的文本解析转换工具，可以读取文本，并根据指定的条件对文本内容进行编辑(删除、替换、添加、移动等)，最后输出所有行或者仅输出处理的某些行。sed 也可以在无交互的情况下实现相当复杂的文本处理操作，被广泛应用于 shell 脚本中，用以完成各种自动化处理任务。

sed 的工作流程主要包括读取、执行和显示三个过程。

读取: sed 从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓冲区中(又称模式空间，pattern space)。

执行: 默认情况下,所有的 sed 命令都在模式空间中顺序地执行,除非指定了行的地址,否则 sed命令将会在所有的行上依次执行。

显示: 发送修改后的内容到输出流。在发送数据后，模式空间将会被清空。

在所有的文件内容都被处理完成之前，上述过程将重复执行，直至所有内容被处理完。

注意:默认情况下所有的 sed 命令都是在模式空间内执行的，因此输入的文件并不会发生任何变化，除非是用重定向存储输出。

cpp 复制代码

sed [ 选项 ] '操作' 参数
sed [ 选项 ] -f scriptfile 参数

常见的 sed 命令选项主要包含以下几种。

e或--expression=:表示用指定命令或者脚本来处理输入的文本文件。

-f或--file=:表示用指定的脚本文件来处理输入的文本文件。

-h或--help:显示帮助。

-n、--quiet 或 silent:表示仅显示处理后的结果。

-i:直接编辑文本文件,

"操作"用于指定对文件操作的动作行为，也就是 sed 的命令。通常情况下是采用的" $n1\[,n2$ ]"操作参数的格式。n1、n2 是可选的，代表选择进行操作的行数，如操作需要在 5~20 行之间进行，则表示为"5，20 动作行为"。常见的操作包括以下几种。

a:增加，在当前行下面增加一行指定内容。

c:替换，将选定行替换为指定内容。

d:删除，删除选定的行。

i:插入，在选定行上面插入一行指定内容。

p:打印，如果同时指定行，表示打印指定行;如果不指定行，则表示打印所有内容;如果有非打印字符，则以 ASCII 码输出。其通常与"-n"选项一起使用。

s:替换，替换指定字符。

y:字符转换。

用法示例：

（1）输出符合条件的文本（p表示正常输出）

全部输出结果

输出第三行

输出3到5行

输出所有奇数行

输出所有偶数行

输出1-5行的奇数行

输出10行到行尾之间的偶数行

以下操作是 sed 命令与正则表达式结合使用的示例

输出含the的行

输出从第四行至第一个包含the的行

输出包含the的行所在行号，等号用来输出行号

输出以PI开头的行

输出以数字结尾的行

输出包含wood的行

（2）删除符合条件的文本

因为后面的示例还需要使用测试文件 test.txt，所以在执行删除操作之前需要先将测试文件备份。以下示例分别演示了 sed 命令的几种常用删除用法。

下面命令中 nl命令用于计算文件的行数，结合该命令可以更加直观地査看到命令执行的结果。

删除第3行

删除第三到五行

删除包含cross的行

删除小写字母开头的行

删除以.结尾的行

删除所有空行

（3）替换符合条件的文本

在使用 sed 命令进行替换操作时需要用到 s(字符串替换)、c(整行/整块替换)、y(字符转换)

将每行中的第一个 the 替换为 THE

每行第二个l替换为L

所有the替换为THE

所有o删除

行首插入#

包含the的行首插入#

行尾插入EOF

第三到五行所有the替换THE

包含the的行所有o替换为0

（4）迁移符合条件的文本

常用以下参数

H:复制到剪贴板;

g、G:将剪贴板中的数据覆盖/追加至指定行;

w:保存为文件;

r:读取指定文件;

a:追加指定内容

包含the的行移至文件尾

将1-5行转移至17行后

将文件/etc/hostname内容添加到包含the的行后

在第三行后添加一个新行内容为new

包含the的行后都添加一个新行new

3行后插入多行内容 \n为换行

（5）使用脚本编辑文件

使用 sed 脚本将多个编辑指令存放到文件中(每行一条编辑指令)，通过"-f"选项来调用。例如执行以下命令即可将第 1~5 行内容转移至第 10 行后。

脚本方式

awk工具

在 Linux/UNIX 系统中，awk是一个功能强大的编辑工具，逐行读取输入文本，并根据指定的匹配模式进行查找，对符合条件的内容进行格式化输出或者过滤处理，可以在无交互的情况下实现相当复杂的文本操作，被广泛应用于 Shell 脚本，完成各种自动化配置任务。

通常情况下 awk 所使用的命令格式如下所示，其中，单引号加上大括号"{}"用于设置对数据进行的处理动作。awk可以直接处理目标文件，也可以通过"-f"读取脚本对目标文件进行处理。

cpp 复制代码

awk 选项'模式或条件{编辑指令}'文件 1 文件 2
awk -f 脚本文件 文件 1 文件 2...

若需要査找出/etc/passwd 的用户名、用户 ID、组 ID 等列，执行以下 awk 命令即可

特殊的内建变量：

FS:指定每行文本的字段分隔符，默认为空格或制表位。

NF:当前处理的行的字段个数。

NR:当前处理的行的行号(序数)

$0:当前处理的行的整行内容。

$n:当前处理行的第 n 个字段(第 n 列)

FILENAME:被处理的文件名。

RS:数据记录分隔，默认为\n，即每行为一条记录。

用法示例

（1）按行输出文本

输出所有内容

输出1-3行

输出1，3行

输出所有奇数行

输出所有偶数行

以root开头

以nologin结尾

（2）按字段输出文本

第三个字段

1，3个字段

输出密码为空的用户passwd记录

以：分隔且第七个字段中包含/bash的行的第一个字段

输出包含 8 个字段且第 1 个字段中包含 nfs 的行的第 1、2 个字段

输出第 7个字段既不为/bin/bash 也不为/sbin/nologin 的所有行