Linux 正则表达式与grep命令

Linux 正则表达式

1. 正则表达式介绍

正则表达式是一种用于匹配字符串模式的工具，它通过一系列特定的字符组合，形成一个规则模板，用于在文本中查找、匹配或替换符合该模式的内容。在 Linux 系统中，正则表达式被广泛应用于文本处理工具（如 grep、sed、awk 等），能够高效地从大量文本中筛选出所需信息，是文本处理和数据分析的重要手段。

正则表达式的核心价值在于其灵活性和强大的匹配能力，它可以处理各种复杂的字符串模式，无论是简单的固定文本匹配，还是包含多种条件的模糊匹配，都能通过相应的正则表达式来实现。例如，在日志文件中查找特定 IP 地址、筛选包含特定关键词的行，或者验证用户输入的格式（如邮箱、电话号码）等，都可以借助正则表达式轻松完成。

2. 正则表达式组成

正则表达式由普通字符和元字符组成，普通字符即常规的文本字符（如字母、数字、符号等），元字符则是具有特殊含义的字符，用于定义匹配规则。

2.1 普通字符

普通字符包括大小写字母、数字、空格以及一些不具有特殊含义的符号（如逗号、句号等），它们在正则表达式中表示自身，用于精确匹配对应的字符。例如，正则表达式 "hello" 只能匹配文本中出现的 "hello" 字符串。

2.2 元字符

元字符是正则表达式的核心，通过不同的组合可以实现复杂的匹配逻辑，常见的元字符及其含义如下：

^：匹配字符串的开始位置。例如，"^hello" 表示匹配以 "hello" 开头的字符串。
$：匹配字符串的结束位置。例如，"world" 表示匹配以 "world" 结尾的字符串。
.：匹配除换行符以外的任意单个字符。例如，"h.t" 可以匹配 "hot""hat""h1t" 等。
*：匹配前面的字符零次或多次。例如，"ab*c" 可以匹配 "ac""abc""abbc""abbbc" 等。
\+：匹配前面的字符一次或多次。例如，"ab+c" 可以匹配 "abc""abbc" 等，但不能匹配 "ac"。
\[\]：定义字符集合，匹配集合中的任意一个字符。例如，" $abc$ " 可以匹配 "a""b" 或 "c"；" $0-9$ " 匹配任意数字；" $a-zA-Z$ " 匹配任意字母。
$\^$ ：定义反向字符集合，匹配不在集合中的任意一个字符。例如，" $\^0-9$ " 匹配非数字字符。
\{n\} 恰好 n 次,匹配前面的子表达式n次，例:go\{2\}d、' $O-9$ \{2\}'匹配两位数字
\{m,n\} m 到 n 次,匹配前面的子表达式n到m次，例: go\{2,3\)d、' $0-9$ \{2,3\}'匹配两位到三位数字
\{n,\} 至少 n 次,匹配前面的子表达式不少于n次，例: go\{2,\}d、' $0-9$ \{2,\}'匹配两位及两位以上数字

3. grep 条件查找命令

grep 是 Linux 系统中常用的文本搜索工具，它能够根据指定的模式（可以是普通字符串或正则表达式）在文件中查找符合条件的行，并将其输出。grep 命令结合正则表达式使用时，能极大地提高文本搜索的效率和准确性。

3.1 基本语法

grep 的基本语法格式为：grep $选项$ 模式 $文件$ ，其中 "模式" 可以是普通字符串或正则表达式，"文件" 是要搜索的目标文件，如果不指定文件，则从标准输入中读取数据。

3.2 常用选项

-i ：忽略大小写，匹配时不区分字母的大小写。例如，grep -i "hello" file.txt会同时匹配 "hello""HELLO""Hello" 等。
-v ：反向匹配，输出不包含模式的行。例如，grep -v "error" log.txt会输出日志文件中不包含 "error" 的行。
-n ：显示匹配行的行号。例如，grep -n "test" file.txt会在输出匹配行的同时，显示其在文件中的行号。
-r ：递归搜索，在指定的目录及其子目录下的所有文件中查找模式。例如，grep -r "config" /etc/会在 /etc 目录及其子目录的所有文件中搜索包含 "config" 的行。
-E ：启用扩展正则表达式，使 grep 支持更多的元字符（如 "+""?""|" 等）。如果不使用该选项，这些元字符需要用转义字符 "\" 转义才能生效。例如，grep -E "a+b" file.txt可以直接使用 "+"，而不用写成 "a+b"。
-o ：只输出匹配的部分，而不是整个行。例如，grep -o "hello" file.txt只会输出每行中匹配到的 "hello" 字符串。

3.3 使用示例

grep -n 'the' test.txt 查找 test.txt文件的字符 the

grep -n 'sh $io$ rt' test.txt 查找test.txt文件的 shirt 或 short

grep -n '^the' test.txt 查找test.txt文件的以"the" 开头的字符串

grep -n 'w..d' test.txt 查找test.txt文件的w 开头 d 结尾，中间两个字符

grep -n 'wo\{2,5\}d' test.txt 查找test.txt文件的w 开头 d 结尾，2-8 个 o