Shell 编程之正则表达式与文本处理器

在Shell 编程中，正则表达式与文本处理器是两大不可或缺的利器。**正则表达式（Regular Expression，RE）**作为一种强大的字符串匹配工具，能够通过特定的字符组合来描述和匹配一系列符合特定规则的字符串。它不仅在脚本编程中扮演着重要角色，还是文本编辑器及多种程序设计语言中的核心功能之一。

一、正则表达式

正则表达式又称正规表达式、常规表达式。在代码中常简写为regex、regexp 或 RE。正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，简单来说，是一种匹配字符串的方法，通过一些特殊符号，实现快速查找、删除、替换某个特定字符串。

正则表达式是由普通字符与元字符组成的文字模式。模式用于描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。

其中普通字符包括大小写字母、数字、标点符号及一些其他符号，元字符则是指那些在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。

二、基础正则表达式

正则表达式的字符串表达方法根据不同的严谨程度与功能分为基本正则表达式与扩展正则表达式。基础正则表达式是常用正则表达式最基础的部分。在Linux系统中常见的文件处理工具中grep与 sed支持基础正则表达式，而 egrep 与 awk 支持扩展正则表达式。

二者对比如下：

基本正则表达式：语法严格，量词和特殊符号需转义（如 \+、）。
扩展正则表达式：语法更简洁，直接支持高级元字符（如 +、()、|）。

1、基础正则表达式示例

提前准备一个名为test.txt的测试文件，内容如下：

复制代码

[root@localhost ~]# vim test.txt
he was short and fat.
he was weating a blue polo shirt with black pants.
The home of Football on BBC Sport online.
the tongue is boneless but it breaks bones.12!
google is the best tools for search keyword.
PI=3.14
a wood cross!
Actions speak louder than words

#woood #
#woooooooood #
AxyzxyzxyzxyzC
I bet this place is really spooky late at night!
Misfortunes never come alone/single.
I shouldn't have lett so tast.

（1）查找特定字符

查找test.txt文件中"the"所在位置。

grep -n 'the' test.txt

**-n：**表示显示行号。

**-i：**表示不区分大小写。

若反向选择，查找不包含"the"字符的行。

grep -vn 'the' test.txt

**-v：**表示反向选择。

（2）利用中括号""来查找集合字符

想要査找"shirt"与"short"这两个字符串时，可以发现这两个字符串均包含"sh"与"rt"。此时执行以下命令即可同时査找到"shirt"与"short"这两个字符串，其中"\[\]"中无论有几个字符，都仅代表一个字符，也就是说" $io$ "表示匹配"i"或者"o"

grep -n 'sh $io$ rt' test.txt

若要查找包含重复单个字符"oo"，只需要执行以下命令即可。

grep -n 'oo' test.txt

若查找"oo"前面不是"w"的字符串，只需要通过集合字符的反向选择" $\^$ "来实现。

grep -n ' $\^w$ oo' test.txt

若不希望"oo"前面存在小写字母。

grep -n ' $\^a-z$ oo' test.txt

a-z：表示小写字母。

A-Z：表示大写字母。

查找包含数字的行。

grep -n ' $0-9$ ' test.txt

（3）查找行首"^"与行尾字符"$"

基础正则表达式包含两个定位元字符："^"(行首)与"$"(行尾)。

在上面的示例中，査询"the"字符串时出现了很多包含"the"的行，如果想要査询以"the"字符串为行首的行，则可以通过"^"元字符来实现。

grep -n '^the' test.txt

查询以小写字母开头的行可以通过"^ $a-z$ "规则过滤，大写字母开头的行使用"^ $A-Z$ "，若查询不以字母开头的行使用"^ $\^a-zA-Z$ "规则。

grep -n '^ $a-z$ ' test.txt

grep -n '^ $A-Z$ ' test.txt

grep -n '^ $\^a-zA-Z$ ' test.txt

"^"符号在元字符集合"\[\]"符号内外的作用是不一样的，在"\[\]"符号内表示反向选择，在"\[\]"符号外则代表定位行首。

反之，若想查找以某一特定字符结尾的行则可以使用"$"定位符。

例如，执行以下命令即可实现查询以小数点(.)结尾的行。因为小数点(.)在正则表达式中也是一个元字符(后面会讲到)，所以在这里需要用转义字符"\" 将具有特殊意义的字符转化为普通字符。

grep -n '\.$' test.txt

当查询空白行时。

grep -n '^$' test.txt

（4）查找任意一个字符"."与重复字符**"*"**

小数点（.）是一个元字符，代表任意一个字符。

查找"w？？d"的字符串，即共有四个字符，以w开头d结尾。

grep -n 'w..d' test.txt

在上述结果中，"wood"字符串"w..d"匹配规则。若想要査询 oo、ooo、ooooo 等资料，则需要使用星号(*)元字符。但需要注意的是，"*"代表的是重复零个或多个前面的单字符。"o*"表示拥有零个(即为空字符)或大于等于一个"o"的字符，因为允许空字符，所以执行"grep -n 'o*' test.txt"命令会将文本中所有的内容都输出打印。如果是"oo*"，则第一个 o 必须存在，第二个 o 则是零个或多个 o，所以凡是包含 o、oo、ooo、ooo，等的资料都符合标准。

同理，若査询包含至少两个 o 以上的字符串。

grep -n 'ooo*' test.txt

查询以 w 开头 d 结尾，中间包含至少一个 o 的字符串。

grep -n 'woo*d' test.txt

查询以w 开头 d 结尾，中间的字符可有可无的字符串。

grep -n 'w.*d' test.txt

查询任意数字所在行。

grep -n ' $0-9$ $0-9$ *' test.txt

（5）查找连续字符范围"{ }"

"{ }"：限制一个范围内的重复字符串。

"{}"在Shell中具有特殊意义，所以在使用时要利用转义字符"\"，将"{}"字符转换成普通字符。

查询两个o 的字符。

grep -n 'o\{2\}' test.txt

查询以 w 开头以d 结尾，中间包含2~5个o 的字符串。

grep -n 'wo\{2,5\}d' test.txt

查询w 开头以d 结尾，中间包含2 个以上o 的字符串。

grep -n 'wo\{2,\}d' test.txt

2、元字符总结

|-------------|------ | 字符 | 说明 | \ | ^ | $ | * | + | ? | . | {n} | {n,} | {n,m} | \d | \D | \s | \S | \w | \W | \n | \f | \r ------------------------------------------|
|
| 将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符 |
| 匹配输入字符串的开始位置 |
| 匹配输入字符串的结束位置 |
| 匹配前面的子表达式零次或多次 |
| 匹配前面的子表达式一次或多次 |
| 匹配前面的子表达式零次或一次 |
| 匹配除换行符（\n、\r）之外的任何单个字符 |
class="md-editor-katex-inline">a-z | 字符范围，匹配指定范围内的任意字符 |
| n 是一个非负整数，匹配确定的n 次 |
| n 是一个非负整数，至少匹配n 次 |
| m 和 n 均为非负整数，其中n |
| 匹配一个数字字符。等价于 $0-9$ |
| 匹配一个非数字字符。等价于 $\^0-9$ |
| 匹配任何空白字符，包括空格、制表符、换页符等等。等价于 $\\f\\n\\r\\t\\v$ |
| 匹配任何非空白字符。等价于 $\^ \\f\\n\\r\\t\\v$ |
| 匹配字母、数字、下划线。等价于' $A-Za-z0-9_$ ' |
| 匹配非字母、数字、下划线。等价于' $\^A-Za-z0-9_$ ' |
| 匹配一个换行符 |
| 匹配一个换页符 |
| 匹配一个回车符 |

3、扩展正则表达式

通常情况下会使用基础正则表达式就已经足够了，但有时为了简化整个指令，需要使用范围更广的扩展正则表达式。

例如，使用基础正则表达式查询除文件中空白行与行首为"#"之外的行(通常用于查看"即可实现。这里需要使用管道生效的配置文件)，执行" grep -v '^ $' test.txt \| grep -v '\^#' "命令来搜索两次。如果使用扩展正则表达式，可以简化为" egrep -v '\^$ | ^#' test.txt "，其中，单引号内的管道符号表示或者(or)。

grep 命令仅支持基础正则表达式，如果使用扩展正则表达式，需要使用 egrep 或 awk 命令。我们直接使用 egrep 命令。egrep 命令与 grep 命令的用法基本相似。

egrep 命令是一个搜索文件获得模式，使用该命令可以搜索文件中的任意字符串和符号，也可以搜索一个或多个文件的字符串，一个提示符可以是单个字符、一个字符串、一个字或一个句子。

与基础正则表达式类型相同，扩展正则表达式也包含多个元字符，常见的扩展正则表达式的元字符主要包括以下几个，如下表所示。

|-----|-------------------|----------------------------------------------------------------------------------------------------------------------|
| 元字符 | 作用 | 示例 |
| + | 重复一个或者一个以上的前一个字符 | 执行"egrep -n 'wo+d' test.txt"命令，即可査询"wood" "woood" "woooooood"等字符串 |
| ? | 零个或者一个的前一个字符 | 执行"egrep -n 'bes?t' test.txt"命令，即可査询"bet" "best"这两个字符串 |
| | | 使用或者（or）的方式找出多个字符 | 执行"egrep -n 'of|is|on' test.txt"命令即可査询"of"或者"if"或者"on"字符串 |
| () | 查找"组"字符串 | "egrep -n 't(a|e)st' test.txt"。"tast"与"test"因为这两个单词的"t"与"st"是重复的，所以将"a"与"e"列于"()"符号当中，并以"|"分隔，即可查询"tast"或者"test"字符 |
| ()+ | 辨别多个重复的组 | "egrep -n 'A(xyz)+C' test.txt"。该命令是査询开头的"A"结尾是"C"，中间有一个以上的"xyz"字符串的意思 |

二、文本处理器

1、sed 工具

sed (Stream EDitor)是一个强大而简单的文本解析转换工具，可以读取文本，并根据指定的条件对文本内容进行编辑(删除、替换、添加、移动等)，最后输出所有行或者仅输出处理的某些行。sed 也可以在无交互的情况下实现相当复杂的文本处理操作，被广泛应用于 shell 脚本中，用以完成各种自动化处理任务。

sed 的工作流程主要包括以下三个过程：

|----|---------------------------------------------------------------|
| 读取 | sed 从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓冲区中(又称模式空间，pattern space)。 |
| 执行 | 默认情况下,所有的 sed 命令都在模式空间中顺序地执行,除非指定了行的地址,否则 sed命令将会在所有的行上依次执行。 |
| 显示 | 发送修改后的内容到输出流。在发送数据后，模式空间将会被清空。 |

在所有的文件内容都被处理完成之前，上述过程将重复执行，直至所有内容被处理完。

注：默认情况下所有的 sed 命令都是在模式空间内执行的，因此输入的文件并不会发生任何变化，除非是用重定向存储输出。

sed $选项$ '操作' 参数

sed $选项$ -f scriptfile 参数

常见的sed 命令选项主要包含以下几种：

|-------------------------|------------------------|
| -e 或 -expression= | 表示用指定命令或者脚本来处理输入的文本文件。 |
| -f 或 --file= | 表示用指定的脚本文件来处理输入的文本文件。 |
| -h 或 --help | 显示帮助。 |
| -n、--quiet 或 silent | 表示仅显示处理后的结果。 |
| -i | 直接编辑文本文件。 |

"操作"用于指定对文件操作的动作行为，也就是 sed 的命令。通常情况下是采用的" $n1\[,n2$ ]"操作参数的格式。n1、n2 是可选的，代表选择进行操作的行数，如操作需要在 5~20 行之间进行，则表示为"5，28 动作行为"。常见的操作包括以下几种。

|-------|---------------------------------------------------------------------------|
| a | 增加，在当前行下面增加一行指定内容。 |
| c | 替换，将选定行替换为指定内容。 |
| d | 删除，删除选定的行。 |
| i | 插入，在选定行上面插入一行指定内容。 |
| p | 打印，如果同时指定行，表示打印指定行；如果不指定行，则表示打印所有内容；如果有非打印字符，则以 ASCII 码输出。其通常与"-n"选项一起使用。 |
| s | 替换，替换指定字符。 |
| y | 字符转换。 |

（1）输出符合条件的文本（p 表示正常输出）

sed -n 'p' test.txt

输出所有内容，等同于cat test.txt

sed -n '3p' test.txt

输出第3行

sed -n '3,5p' test.txt

输出3~5行

sed -n 'p;n' test.txt

输出所有奇数行，表示读入下一行资料

sed -n 'n;p' test.txt

输出所有偶数行，表示读入下一行资料

sed -n '1,5{p;n}' test.txt

输出第1~5行之间的奇数行（第1，3，5行）

sed -n '10,${n;p}' test.txt

输出第10 行至文件尾之间的偶数行

在执行"sed -n '10,${n;p}' test.txt"命令时，读取的第 1 行是文件的第 10 行，读取的第 2行是文件的第 11 行，依此类推，所以输出的偶数行是文件的第 11 行、13 行直至文件结尾，其中包括空行。

以上时sed 命令的基本用法，sed 命令结合正则表达式时，格式略有不同，正则表达式以"/"包围。

例如：

sed -n '/the/p' test.txt

输出包含the 的行

sed -n '4,/the/p' test.txt

输出从第4行至第一个包含the 的行

sed -n '/the/=' test.txt

输出包含the的行所在的行号，等号（=）用来输出行号

sed -n '/^PI/p' test.txt

输出以PI 开头的行

sed -n '/ $0-9$ $/p' test.txt

输出以数字结尾的行

sed -n '/\<wood\>/p' test.txt

输出包含单词wood的行，\<，\>代表单词边界

（2）删除符合条件的文本（d）

nl 命令用于计算文件的行数，结合该命令可以更加直观地查看到命令执行的结果。

nl test.txt | sed '3d'

删除第3行

nl test.txt | sed '3,5d'

删除第3~5行

nl test.txt | sed '/cross/d'

删除包含cross 的行，原本的第7行被删除；如果要删除不包含cross 的行，用 ! 符号表示取反操作，如'/cross/! d' ......

sed '/^ $a-z$ /d' test.txt

删除以小写字母开头的行

sed '/\.$/d' test.txt

删除以"." 结尾的行

sed '/^$/d' test.txt

删除所有空行

注：若是删除重复的空行，即连续的空行只保留一个，执行"sed -e '/^ $/{n;/\^$ d}' test.txt"命令即可实现。其效果与"cat -s test.txt"相同，n 表示读下一行数据。

（3）替换符合条件的文本

sed 命令进行替换操作的常见命令选项：

s：字符串替换。

c：整行/整行替换。

y：字符转换。

其常见用法如下：

sed 's/the/THE/' test.txt 将每行中的第一个the替换为THE
sed 's/l/L/2' test.txt 将每行中的第2个 l 替换为 L
sed 's/the/THE/g' test.txt 将文件中的所有the替换为 THE
sed 's/o//g' test.txt 将文件中的所有o 删除（替换为空串）
sed 's/^/#/' test.txt 在每行行首插入#号
sed '/the/s/^/#/' test.txt 在包含the 的每行行首插入#号
sed 's/$/EOF/' test.txt 在每行行尾插入字符串 EOF
sed '3,5s/the/THE/g' test.txt 将第3~5行中的所有the 替换为 THE
sed '/the/s/o/O/g' test.txt 将包含 the 的所有行中的o 都替换为 O

（4）迁移符合条件的文本

在使用sed 命令迁移符合条件的文本时，常用到以下参数：

|-----|-------------------|
| H | 复制到剪贴板 |
| g、G | 将剪贴板中的数据覆盖/追加至指定行 |
| w | 保存为文件 |
| r | 读取指定文件 |
| a | 追加指定内容 |

操作例子如下：

sed '/the/{H;d};$G' test.txt 将包含the 的行迁移至文件末尾，{;}用于多个操作
sed '1,5{H;d};17G' test.txt 将第1~5行内容转移至第17行后
sed '/the/w out.file' test.txt 将包含the 的行另存为文件out.file
sed '/the/r /etc/hostname' test.txt 将文件/etc/hostname的内容添加到包含the 的每行以后
sed '3aNew' test.txt 在第3行后插入一个新行，内容为New
sed '/the/aNew' test.txt 在包含the 的每行后插入一个新行，内容为New
sed '3aNew1\nNew2' test.txt 在第3行后插入多行内容，中间的\n表示换行

（5）使用脚本编辑文件

使用sed脚本将多个编辑指令存放到文件中（每行一条编辑指令），通过"-f" 选项来调用。

例如执行以下命令即可将第1~5行内容转移至第17行后：

sed '1,5{H;d};17G' test.txt

以上操作可恶意改用脚本文件方式：

sed -f opt.list test.txt

（6）sed 直接操作文件示例

编写一个脚本，用来调整vsftpd 服务配置，要求禁止匿名用户，但允许本地用户(也允许写入)。

复制代码

[root@localhost ~]# vim local_only_ftp.sh
#!/bin/bash
#指定样本文件路径、配置文件路径
SAMPLE="/usr/share/doc/vsftpd-3.0.2/EXAMPLE/INTERNET_SITE/vsftpd.conf"
CONFIG="/etc/vsftpd/vsftpd.conf"
#备份原来的配置文件,检测文件名为/etc/vsftpd/vsftpd.conf.bak 备份文件是否存在，若不
#存在则使用 cp 命令进行文件备份
[ ! -e "$CONFIG.bak" ] && cp $CONFIG $CONFIG.bak
#基于样本配置进行调整,覆盖现有文件
sed -e /^anonymous_enable/s/YES/NO/g' $SAMPLE > $CONFIG
sed -i -e '/^local_enable/s/NO/YES/g' -e '/^write_enable/s/NO/YES/g' $CONFIG
grep "listen" $CONFIG || sed -i '$alisten=YES' $CONFIG
#启动 vsftpd 服务,并设为开机后自动运行
systemctl restart vsftpd
systemctl enable vsftpd
[root@localhost ~]# chmod +x local_only_ftp.sh

2、awk 工具

在 Linux/UNIX 系统中，awk是一个功能强大的编辑工具，逐行读取输入文本，并根据指定的匹配模式进行查找，对符合条件的内容进行格式化输出或者过滤处理，可以在无交互的情况下实现相当复杂的文本操作，被广泛应用于 Shell 脚本，完成各种自动化配置任务。

通常情况下 awk所使用的命令格式如下所示，其中，单引号加上大括号"{}"用于设置对数据进行的处理动作。awk可以直接处理目标文件，也可以通过"-f"读取脚本对目标文件进行处理。

awk 选项 '模式或条件 {编辑指令}' 文件1 文件2 ... 过滤并输出文件中符合条件的内容

awk -f 脚本文件文件1 文件2 ... 从脚本中调用编辑指令，过滤并输出内容

awk 包含几个特殊的内建遍历（可直接用）如下：

|----------|-------------------------|
| FS | 指定每行文本的字段分隔符，默认为空格或制表位。 |
| NF | 当前处理的行的字段个数。 |
| NR | 当前处理的行的行号(序数) |
| $0 | 当前处理的行的整行内容。 | |$ n | 当前处理行的第n个字段(第n列) |
| FILENAME | 被处理的文件名。 |
| RS | 数据记录分隔，默认为\n，即每行为一条记录。 |

(1)按行输出文本

awk -F":" '{print}' /etc/passwd //输出所有

awk -F":" '{print $0}' /etc/passwd //输出所有

awk -F: 'NR==3,NR==6{print}' /etc/passwd //显示第3行到第6行

awk -F: 'NR>=3&&NR<=6{print}' /etc/passwd //显示第3行到第6行

awk -F: 'NR==3||NR==6{print}' /etc/passwd //显示第3行和第6行

awk '(NR%2)==1{print}' /etc/passwd //显示奇数行

awk '(NR%2)==0{print}' /etc/passwd //显示偶数行

awk '/^root/{print}' /etc/passwd //显示以root开头的行

awk '/nologin$/{print}' /etc/passwd //显示以nologin结尾的行

awk 'BEGIN {x=0};/\/bin\/bash$/{x++};END {print x}' /etc/passwd //统计以/bin/bash结尾的行数

awk 'BEGIN{RS=""};END{print NR}' /etc/ssh/sshd_config //统计以空行分隔的文本段落数

awk '{print NR,$0}' /etc/passwd //输出每行的行号

awk -F: '{print NR,NF, $NF,"\\t",$ 0}' /etc/passwd //依次打印行号，字段数，最后字段值，制表符，每行内容

awk -F: 'NR==5{print}' /etc/passwd //显示第5行

route -n|awk 'NR!=1{print}' //不显示第一行

awk -F: '{print NF}' /etc/passwd //显示每行有多少字段

awk -F: '{print $NF}' /etc/passwd //将每行第NF个字段的值打印出来

awk -F: 'NF==4 {print }' /etc/passwd //显示只有4个字段的行

awk -F: 'NF>2{print $0}' /etc/passwd //显示每行字段数量大于2的行

（2）按字段输出文本

awk -F":" '{print $3}' /etc/passwd //显示第三列

awk -F":" '{print $1$ 3}' /etc/passwd // $1与$ 3相连输出，无空格，

awk -F":" '{print $1,$ 3}' /etc/passwd //多了一个逗号，输出第1和第3个字段，有空格

awk -F: '$2=="!!" {print}' /etc/shadow //统计密码为空的shadow记录

awk 'BEGIN {FS=":"}; $2=="!!" {print}' /etc/shadow ##显示密码为空的用户的shadow信息

awk -F ":" ' $7\~"/bash" {print$ 1}' /etc/passwd ##显示第七个字段为/bash的行的第一个字段

awk -F: 'NR==5{print}' /etc/passwd //显示第5行

awk -F":" '{print $1 " "$ 3}' /etc/passwd // $1与$ 3之间手动添加空格分隔

（3）通过管道、双引号调用Shell 命令

awk -F: '/bash$/{print | "wc -l"}' /etc/passwd ##统计bash用户的个数

awk 'BEGIN {while ("w" | getline) n++ ; {print n-2}}' ##统计在线用户的数量

awk 'BEGIN {"hostname" | getline;print $0}' ##输出当前主机名

awk -F: ' $1\~/mail/ \&\&$ 3>6 {print }' /etc/passwd //逻辑与， $1匹配mail，并且$ 3>6

awk -F: ' $1\~/mail/ \|\|$ 3>1000 {print }' /etc/passwd //逻辑或，统计以mail开头或第3列大于1000的行