Shell编程之正则表达式与文本处理器

| 术语 | 定义 | 示例 |
|-----------------|---------------------------------------|------------------------------|-------|------------------------|
| 正则表达式 | 用于描述字符串匹配规则的表达式，由普通字符和元字符组成。 | \d{3}-\d{4} 匹配如 "123-4567" |
| 普通字符 | 直接匹配自身的字符（如字母、数字）。 | abc 匹配字符串中的 "abc" |
| 元字符 | 具有特殊含义的字符（如 .、*、^ 等），需转义才能匹配自身。 | \. 匹配句点 "." |
| 字符类 [...] | 匹配括号内任意一个字符。 | [aeiou] 匹配任意一个元音字母 |
| 范围类 [a-z] | 匹配指定范围内的字符。 | [0-9] 匹配任意数字 |
| 预定义类 | 简化的字符类（如 \d 匹配数字，\w 匹配单词字符）。 | \d 等价于 [0-9] |
| 量词 | 指定前面字符的重复次数（如 ?、+、{n}）。 | a{2} 匹配 "aa" |
| 边界匹配 | 如 ^（开头）、$（结尾）、\b（单词边界）。 | ^Hello 匹配以 "Hello" 开头的行 |
| 分组 (...) | 将多个字符作为整体处理，可结合量词或捕获。 | (ab)+ 匹配 "abab" |
| **或操作 ` | `** | 匹配左边或右边的表达式。 | `cat | dog` 匹配 "cat" 或 "dog" |
| 修饰符 | 改变匹配行为的标志（如 i 忽略大小写，g 全局匹配）。 | /abc/i 匹配 "ABC" |

2：正则表达式用途

用途分类	具体应用场景	示例
1. 数据验证	验证用户输入的格式是否符合要求（如邮箱、电话、密码强度等）。	- 邮箱：`^\w+@\w+\.[a-z]{2,3}$`
		- 手机号：`^1[3-9]\d{9}$`（中国手机号）
2. 文本搜索	快速查找符合特定模式的字符串（如代码中的关键字、日志中的错误信息）。	- 查找 `error:` 开头的行：`^error:.*`
3. 文本替换	批量替换文本中的内容（如修改日期格式、删除空格等）。	- 将 `dd/mm/yyyy` 替换为 `yyyy-mm-dd`： `(\d{2})/(\d{2})/(\d{4})` → `$3-$2-$1`
4. 数据提取	从字符串中提取结构化数据（如URL参数、日志中的IP地址）。	- 提取IP地址：`\b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b`
5. 字符串分割	按复杂规则分割字符串（如按逗号或分号分隔，但忽略引号内的分隔符）。	- 分割CSV：`,(?=(?:[^"]"[^"]")[^"]$)`
6. 格式标准化	统一文本格式（如去除多余空格、统一换行符、大小写转换）。	- 合并多个空格：`\s+` →
7. 日志分析	过滤或统计日志中的特定事件（如统计HTTP状态码、提取错误时间戳）。	- 匹配HTTP 404错误：`HTTP.*\s404\s`
8. 代码处理	在代码中批量修改或检查语法（如重命名变量、查找未闭合的标签）。	- 匹配HTML标签：`<[^>]+>`
9. 网络爬虫	从网页源码中提取链接、图片路径等。	- 提取URL：`https?://[^\s"'<>]+`
10. 敏感信息脱敏	隐藏或替换敏感数据（如身份证号、银行卡号的部分字符）。	- 脱敏手机号：`(\d{3})\d{4}(\d{4})` → `$1****$2`

二：基础正则表达式

正则表达式的字符串表达方法根据不同的严谨程度与功能分为基本正则表达式与扩展正则表达式。基础正则表达式是常用正则表达式最基础的部分。在Linux 系统中常见的文件处理工具中 grep 与 sed支持基础正则表达式，而 egrep 与 awk 支持扩展正则表达式。掌握基础正则表达式的使用方法，首先必须了解基本正则表达式所包含元字符的含义，下面通过 grep 命令以举例的方式逐个介绍。

1：基础正则表达式示例

下面的操作需要提前准备一个名为 test.txt 的测试文件，文件具体内容如下所示。

（1）查找特定字符

查找特定字符非常简单，如执行以下命令即可从 test.txt 文件中査找出特定字符"the"所在位置其中"-n"表示显示行号、"-ì"表示不区分大小写。命令执行后，符合匹配标准的字符，字体颜色会变为红色(本章中全部通过加粗显示代替)。

若反向选择，如查找不包含"the"字符的行，则需要通过 grep 命令的"-v"选项实现，并配合"-n"·起使用显示行号。

（2）利用中括号"\[\]"来查找集合字符

想要査找"shirt"与"short"这两个字符串时，可以发现这两个字符串均包含"sh"与"rt"。此时执行以下命令即可同时査找到"shirt"与"short"这两个字符串，其中""中无论有几个字符，都仅代表一个字符，也就是说" $io$ "表示匹配"i"或者"o"。

若要查找包含重复单个字符"oo"时，只需要执行以下命令即可。

若查找"oo"前面不是"w"的字符串，只需要通过集合字符的反向选择" $\^$ "来实现该目的。例如执行"grep -n' $\^w$ oo'test.txt"命令表示在 test.txt 文本中査找"oo"前面不是"w"的字符串。

在上述命令的执行结果中发现"woood"与"wooooood"也符合匹配规则，二者均包含"w"。其实通过执行结果就可以看出，符合匹配标准的字符加粗显示，而上述结果中可以得知，"#woood #"中加粗显示的是"ooo"，而"oo"前面的"。"是符合匹配规则的。同理"#woooooood #"也符合匹配规则。

若不希望"oo"前面存在小写字母，可以使用"grep -n' $\^a-z$ oo'test.txt"命令实现，其中 a-z"表示小写字母，大写字母则通过"A-Z"表示。

查找包含数字的行可以通过"grep -n' $0-9$ 'test.txt"命令来实现。

（3）查找行首"^"与行尾字符"$"

基础正则表达式包含两个定位元字符:"^"(行首)与"$"(行尾)。在上面的示例中，查询"the"字符串时出现了很多包含"the"的行，如果想要査询以"the"字符串为行首的行，则可以通过"^"元字符来实现。

查询以小写字母开头的行可以通过"^ $a-z$ "规则来过滤，査询大写字母开头的行则使用"^ $A-Z$ "规若查询不以字母开头的行则使用"^ $\^a-zA-Z$ "规则。

"^"符号在元字符集合"\[\]"符号内外的作用是不一样的，在"\[\]"符号内表示反向选择，在"\[\]"符号外则代表定位行首。反之，若想查找以某一特定字符结尾的行则可以使用"$"定位符。例如，执行以下命令即可实现査询以小数点(,)结尾的行。因为小数点(.)在正则表达式中也是一个元字符(后面会讲到)，所以在这里需要用转义字符"、"将具有特殊意义的字符转化成普通字符。

当查询空白行时，执行"grep -n'^$'test.txt"命令即可。

**（4）查找任意一个字符" . " 与重复字符" * "**

前面提到，在正则表达式中小数点(.)也是一个元字符，代表任意一个字符。例如执行以下命令就可以査找"w??d"的字符串，即共有四个字符，以w开头 d 结尾。

在上述结果中,"'wood"字符串"w..d"匹配规则。若想要査询 oo、ooo、oooo等资料，则需要使用星号(*)元字符。但需要注意的是,"*"代表的是重复零个或多个前面的单字符。"o*"表示拥有零个(即为空字符)或大于等于一个"o"的字符，因为允许空字符，所以执行"grep-n'o*' test.txt"命令会将文本中所有的内容都输出打印。如果是"oo*"，则第一个。必须存在，第二个。则是零个或多个o，所以凡是包含 o、oo、ooo、ooo，等的资料都符合标准。同理，若査询包含至少两个 o 以上的字符串，则执行"grep -n'ooo*' test.txt"命令即可。

查询以 w开头 d 结尾，中间包含至少一个。的字符串，执行以下命令即可实现。

执行以下命令即可査询以 w开头 d 结尾，中间的字符可有可无的字符串。

执行以下命令即可查询任意数字所在行。

(5)查找连续字符范围"{ }"

在上面的示例中，使用了"."与"*"来设定零个到无限多个重复的字符,如果想要限制一个范围内的重复的字符串该如何实现呢?例如，查找三到五个。的连续字符，这个时候就需要使用基础正则表达式中的限定范围的字符"{}"。因为"{}"在 shell中具有特殊意义，所以在使用"{}"字符时，需要利用转义字符"\"，将"{}"字符转换成普通字符。"{}"字符的使用方法如下所示。

查询两个0的字符。

查询以 w 开头以 d 结尾，中间包含 2~5 个0的字符串。

查询以 w 开头以 d 结尾，中间包含 2 个或 2 个以上0的字符串。

2：元字符总结

通过上面几个简单的示例，可以了解到常见的基础正则表达式的元字符主要包括以下几个，如下表所示。

|---------|-----------------------------------------------|
| 字符 | 说明 |
| \ | 将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符 |
| ^ | 匹配输入字符串的开始位置 |
| $ | 匹配输入字符串的结束位置 |
| * | 匹配前面的子表达式零次或多次 |
| + | 匹配前面的子表达式一次或多次 |
| ? | 匹配前面的子表达式零次或一次 |
| . | 匹配除换行符(\n、)之外的任何单个字符 |
| $a-z$ | 字符范围。匹配指定范围内的任意字符。 |
| {n} | n是一个非负整数,匹配确定的n次 |
| {n,} | n是一个非负整数,至少匹配n 次 |
| {n,m} | m 和 n均为非负整数，其中n <= m。最少匹配n次且最多匹配 m 次 |
| \d | 匹配一个数字字符。等价于 $0-9$ 。 |
| \D | 匹配一个非数字字符。等价于 $\^0-9$ 。 |
| \s | 匹配任何空白字符，包括空格、制表符、换页符等等。等价于 $\\fn\\r\\t\\v$ 。 |
| \S | 匹配任何非空白字符。等价于 $\^\\An\\r\\t\\v$ . |
| \w | 匹配字母、数字、下划线。等价于' $A-Za-z0-9_$ '。 |
| \W | 匹配非字母、数字、下划线。等价于' $\^A-Za-z0-9_$ '。 |
| \n | 匹配一个换行符 |
| \f | 匹配一个换页符 |
| \r | 匹配一个回车符 |

3:扩展正则表达式

元字符	作用	示例命令	匹配示例
`+`	匹配前一个字符1次或多次（贪婪匹配）	`egrep -n 'w0+d' test.txt`	"wood", "wooood", "w0d"
`?`	匹配前一个字符0次或1次（可选匹配）	`egrep -n 'bes?t' test.txt`	"bet", "best"（不匹配 "besst"）
`	`	或操作，匹配任意一侧的表达式	`egrep -n 'of
`(...)`	分组，将内容视为一个单元	`egrep -n 't(a	e)st' test.txt`
`(...)+`	匹配分组内容1次或多次	`egrep -n 'A(xyz)+C' test.txt`	"AxyzC", "AxyzxyzC"

1.扩展正则表达式（ERE） vs 基础正则表达式（BRE）对比表

| 特性 | 基础正则（BRE） | 扩展正则（ERE） | 说明 |
|------------|-------------------------|-----------------------------------|-----------------------------------|---------------------|-------------------------|
| 启用方式 | 默认模式（如 grep） | 需加 -E 标志（如 grep -E 或 egrep） | ERE 是 BRE 的超集，支持更多元字符无需转义。 |
| 元字符转义 | 部分元字符需转义（如 \+、\?） | 元字符无需转义（直接使用 +、? 等） | ERE 中 `( ) { } + ? | 等可直接使用，BRE 中需加`。 |
| 量词 | 仅支持 *、\{n,m\}（需转义） | 支持 *、+、?、{n,m}（无需转义） | ERE 提供更简洁的量词语法。 |
| 逻辑或 | 不支持 | 支持 ` | ` 直接表示或操作 | 如 `cat | dog` 匹配 "cat" 或 "dog"。 |
| 分组 | 需转义 $...$ | 直接使用 (...) | ERE 的分组更直观，支持捕获和非捕获组 (?:...)。 |
| 锚定与边界 | 支持 ^、$、\b | 相同，但部分工具扩展更多（如 \G） | ERE 可能支持更多边界断言（如 Perl 风格的 \K）。 |
| 预定义字符类 | 支持 \d、\w、\s（依赖工具） | 相同，但兼容性更好 | 部分工具（如 awk）在 ERE 模式下才支持 \d 等。 |

2.ERE 工具支持示例

| 工具/语言 | 启用方式 | 示例命令 |
|------------------------|---------------------|--------------------------------------------------------------|---------------|
| grep | grep -E 或 egrep | `egrep 'a+ | b' file.txt` |
| sed | sed -E（GNU扩展） | sed -E 's/(ab)+/X/g' file.txt |
| awk | 默认支持 ERE | awk '/^[0-9]{3}/ {print}' file.txt |
| Perl/Python/JavaScript | 原生支持 ERE 增强版 | python -c "import re; print(re.findall(r'\d+', 'abc123'))" |

三：文本处理器

在 Linux/UNIX 系统中包含很多种类的文本处理器或文本编辑器,其中包括我们之前学习过的 VIM编辑器与 grep 等。而 grep，sed,awk 更是 Shell编程中经常用到的文本处理工具,被称之为 Shell编程三剑客。

1：sed工具

sed(stream EDitor)是一个强大而简单的文本解析转换工具，可以读取文本，并根据指定的条件对文本内容进行编辑(删除、替换、添加、移动等)，最后输出所有行或者仅输出处理的某些行。sed 也可以在无交互的情况下实现相当复杂的文本处理操作，被广泛应用于 she11 脚本中，用以完成各种自动化处理任务。

sed 的工作流程主要包括读取、执行和显示三个过程：

读取:sed 从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓冲区中(又称模式空间，pattern space)。

2.执行:默认情况下,所有的 sed 命令都在模式空间中顺序地执行,除非指定了行的地址,否则 sed命令将会在所有的行上依次执行。

3.显示:发送修改后的内容到输出流。在发送数据后，式空间将会被清空。

在所有的文件内容都被处理完成之前，上述过程将重复执行，直至所有内容被处理完。

注意:默认情况下所有的 sed 命令都是在模式空间内执行的，因此输入的文件并不会发生任何变化,除非是用重定向存储输出。

sed $选项$ '操作' 参数

sed $选项$ -f scriptfile 参数

常见的 sed 命令选项主要包含以下几种:

|-------------------|------------------------|
| -e或--expression= | 表示用指定命令或者脚本来处理输入的文本文件。 |
| -f或--file= | 表示用指定的脚本文件来处理输入的文本文件。 |
| -h或--help | 显示帮助。 |
| -n、--quiet或silent | 表示仅显示处理后的结果。 |
| -i | 直接编辑文本文件。 |

sed 命令操作符及用法表格

操作符	功能描述	语法格式	示例
`a`	增加：在当前行下方添加一行指定内容。	`[n1[,n2]]a\文本内容`	`sed '2a\This is a new line' test.txt`（在第2行下方添加一行）
`c`	替换：将选定行替换为指定内容。	`[n1[,n2]]c\替换内容`	`sed '5,10c\Replaced content' test.txt`（将5-10行替换为一行新内容）
`d`	删除：删除选定的行。	`[n1[,n2]]d`	`sed '3d' test.txt`（删除第3行）
`i`	插入：在当前行上方插入一行指定内容。	`[n1[,n2]]i\文本内容`	`sed '4i\Inserted line' test.txt`（在第4行上方插入一行）
`p`	打印： - 指定行时打印该行； - 未指定行时打印所有内容；非打印字符以ASCII输出（常与 `-n` 选项联用）。	`[n1[,n2]]p`	`sed -n '1,3p' test.txt`（仅打印1-3行）
`s`	替换：替换指定字符（支持正则表达式）。	`[n1[,n2]]s/原内容/替换内容/[flags]`	`sed 's/foo/bar/g' test.txt`（全局替换所有`foo`为`bar`）
`y`	字符转换：按字符一一映射转换（类似`tr`命令）。	`[n1[,n2]]y/原字符集/目标字符集/`	`sed 'y/abc/ABC/' test.txt`（将`a→A`、`b→B`、`c→C`）

（1）输出符合条件的文本（p表示正常输出）

（2）删除符合条件的文本（d）

因为后面的示例还需要使用测试文件 test.txt，所以在执行删除操作之前需要先将测试文件备份。以下示例分别演示了 sed 命令的几种常用删除用法。

下面命令中 nl命令用于计算文件的行数，结合该命令可以更加直观地査看到命令执行的结果。

注意:若是删除重复的空行，即连续的空行只保留一个，执行"sed -e'/^ $/{n;/\^$ /d}'test.txt"命令即可实现。其效果与"cat-s test.txt"相同，n 表示读下一行数据。

（3）替换符合条件的文本

在使用 sed 命令进行替换操作时需要用到 s(字符串替换)、c(整行/整块替换)、y(字符转换)命令选项，常见的用法如下所示。

（4）迁移符合条件的文本

参数	功能描述	语法格式	示例
`H`	复制到剪贴板：将匹配的行追加到模式空间（剪贴板）的末尾。	`[地址范围]H`	`sed '/pattern/H' file`（将匹配 `pattern` 的行复制到剪贴板）
`g`	覆盖粘贴：用剪贴板内容覆盖当前模式空间的内容。	`[地址范围]g`	`sed '1g' file`（用剪贴板内容覆盖第1行）
`G`	追加粘贴：将剪贴板内容追加到当前模式空间的内容后（加换行符）。	`[地址范围]G`	`sed '$G' file`（在文件末尾追加剪贴板内容）
`w`	保存为文件：将匹配的行写入指定文件。	`[地址范围]w 文件名`	`sed '/error/w error.log' file`（将含 `error` 的行保存到 `error.log`）
`r`	读取文件：将指定文件的内容插入到匹配行之后。	`[地址范围]r 文件名`	`sed '3r insert.txt' file`（在第3行后插入 `insert.txt` 的内容）
`a`	追加内容：在指定行后追加文本（与基础操作中的 `a` 相同）。	`[地址范围]a\文本内容`	`sed '2a\This is appended' file`（在第2行后追加一行文本）

//在第 3 行后插入一个新行,内容为 New

//在第 3 行后插入多行内容,中间的\n 表示换行

(5)使用脚本编辑文件

使用 sed 脚本将多个编辑指令存放到文件中(每行一条编辑指令)，通过"-f"选项来调用。例如执行以下命令即可将第 1~5 行内容转移至第 17 行后。

（6）sed 直接操作文件示例

编写一个脚本，用来调整 vsftpd 服务配置，要求禁止匿名用户，但允许本地用户(也允许写入)。

2：awk工具

分类	语法/指令	功能描述	示例
基础格式	`awk '模式或条件 {动作}' 文件1 文件2...`	逐行扫描文件，对匹配模式或条件的行执行动作（如打印、计算等）。	`awk '/error/ {print $0}' log.txt`（打印包含"error"的行）
脚本调用	`awk -f 脚本文件文件1 文件2...`	从指定脚本文件中读取 `awk` 指令处理目标文件。	`awk -f filter.awk data.txt`（用 `filter.awk` 脚本处理数据）
常用选项	`-F`	指定字段分隔符（默认空格/TAB）。	`awk -F: '{print $1}' /etc/passwd`（以冒号分隔，打印第1列）
	`-v`	定义变量并传递给 `awk` 程序。	`awk -v n=5 '{print $n}' file.txt`（打印第5列）
模式类型	`正则表达式`	匹配包含指定模式的行。	`awk '/^[0-9]+$/ {print}' file.txt`（打印纯数字行）
	`条件表达式`	根据逻辑条件筛选行（如比较数值、字符串）。	`awk '$3 > 100 {print $1}' data.txt`（打印第3列大于100的行的第1列）
	`BEGIN` / `END`	在处理前 /后执行的动作（如初始化、汇总）。	`awk 'BEGIN{sum=0} {sum+=$1} END{print sum}' file.txt`（计算第1列总和）
内置变量	`$0`	当前行的全部内容。	`awk '{print $0}' file.txt`（打印整行）
	`$1, $2, ..., $NF`	当前行的第1、2...N个字段（`NF` 表示字段总数）。	`awk '{print $1, $NF}' file.txt`（打印第1列和最后1列）
	`NR`	当前处理的行号（从1开始）。	`awk '{print NR, $0}' file.txt`（打印行号及内容）
	`FS` / `OFS`	输入/输出字段分隔符（`FS` 等效 `-F`，`OFS` 控制输出分隔符）。	`awk 'BEGIN{OFS=";"} {print $1,$2}' file.txt`（输出以分号分隔）
常用动作	`print`	打印指定内容（字段、变量或字符串）。	`awk '{print "Line:", NR, "Data:", $0}' file.txt`
	`printf`	格式化输出（类似C语言的 `printf`）。	`awk '{printf "%-10s %d\n", $1, $2}' file.txt`（左对齐字符串，右对齐数字）
	`if-else`	条件分支处理。	`awk '{if ($1 > 50) print "High"; else print "Low"}' data.txt`

前面提到 sed 命令常用于一整行的处理,而 awk 比较倾向于将一行分成多个"字段"然后再进行处理，且默认情况下字段的分隔符为空格或 tab 键。awk 执行结果可以通过 print 的功能将字段数据打印显示。在使用 awk 命令的过程中,可以使用逻辑操作符"&&"表示"与"、"|"表示"或"、"!"表示"非";还可以进行简单的数学运算，如+、-、*、/、%、^分别表示加、减、乘、除、取余和乘方。

在 Linux 系统中/etc/passwd 是一个非常典型的格式化文件，各字段间使用":"作为分隔符隔开，Linux 系统中的大部分日志文件也是格式化文件,从这些文件中提取相关信息是运维的日常工作内容之一。若需要查找出/etc/passwd 的用户名、用户 ID、组 ID 等列，执行以下 awk 命令即可。

awk 从输入文件或者标准输入中读入信息,与 sed 一样,信息的读入也是逐行读取的。不同的是 awk将文本文件中的一行视为一个记录，而将一行中的某一部分(列)作为记录中的一个字段(域)。为了操作这些不同的字段，awk 借用 shell中类似于位置变量的方法，用 $1、$ 2、 $3...顺序地表示行(记录)中的不同字段。另外 awk 用$ 0 表示整个行(记录)。

不同的字段之间是通过指定的字符分隔。awk 默认的分隔符是空格。awk 允许在命令行中用"-F 分隔符"的形式来指定分隔符。在上述示例中，awk 命令对/etc/passwd 文件的处理过程如下图所示。

变量	功能描述	默认值	示例
`FS`	输入字段分隔符（Field Separator），指定每行文本的分隔符号。	空格或制表符（`\t`）	`awk 'BEGIN{FS=":"} {print $1}' /etc/passwd`（以冒号分隔，打印第1列）
`NF`	当前行的字段数量（Number of Fields），即列数。	无	`awk '{print NF, $0}' file.txt`（输出每行列数及内容）
`NR`	当前处理的行号（Number of Record），从1开始计数。	无	`awk '{print NR, $1}' file.txt`（输出行号及第1列）
`$0`	当前行的完整内容。	无	`awk '{print $0}' file.txt`（打印整行）
`$n`	当前行的第`n`个字段（列），如`$1`表示第1列，`$NF`表示最后一列。	无	`awk '{print $1, $NF}' file.txt`（打印第1列和最后1列）
`FILENAME`	当前被处理的文件名。	无	`awk '{print FILENAME, NR, $0}' file.txt`（输出文件名、行号及内容）
`RS`	输入记录分隔符（Record Separator），指定行分隔符。	换行符（`\n`）	`awk 'BEGIN{RS=";"} {print $0}' data.txt`（以分号作为行分隔符）