正则表达式(Regex)入门

正则表达式是一种用于匹配和处理文本的强大工具。在运维工作中少不了make脚本部署,所以学习正则匹配还是很重要的。

一、正则表达式是什么?

想象一下:你有一大堆文字,你想快速找到所有电话号码、邮箱地址,或者特定格式的文本。正则表达式就像是一个"文本搜索和匹配的公式"。

二、基础匹配规则

1. 字面匹配

最简单的正则就是直接写你要找的文本。

hello # 匹配 "hello"

error # 匹配 "error"

2. 特殊字符(元字符)

|--------|------------------|---------|--------------------------|
| 字符 | 含义 | 示例 | 匹配 |
| . | 匹配任意一个字符 | h.llo | hello, hallo, hxllo |
| * | 前面的字符出现0次或多次 | he*llo | hllo, hello, heeello |
| + | 前面的字符出现1次或多次 | he+llo | hello, heeello(不匹配 hllo) |
| ? | 前面的字符出现0次或1次 | he?llo | hllo, hello |
| `` | 转义特殊字符 | \. | 匹配实际的点号,而不是"任意字符" |

位置匹配

|--------|-----------|-----------|----------------|
| 字符 | 含义 | 示例 | 匹配 |
| ^ | 匹配行开头 | ^Hello | 只匹配行首的 "Hello" |
| | 匹配**行结尾** | end | 只匹配行尾的 "end" |
| \b | 单词边界 | \bcat\b | 匹配整个单词 "cat" |
[ ]

示例

^Hello.*end$ # 匹配以 Hello 开头,以 end 结尾的整行

字符组

|-----------|-----------------------|-------------|--------------|
| 语法 | 含义 | 示例 | 匹配 |
| [abc] | 匹配 a、b 或 c 中的任意一个 | [aeiou] | 任意一个元音字母 |
| [a-z] | 匹配行结尾 | end$ | 只匹配行尾的 "end" |
| [A-Z] | 单词边界 | \bcat\b | 匹配整个单词 "cat" |
| [0-9] | 匹配 0 到 9 的任意数字 | ​ [^0-9] | 任何单个数字 |
| [^abc] | 匹配不是​ a、b、c 的字符 | [^0-9] | 任何非数字字符 |

预定义字符组

|----------|------------------------|-----------------|
| 快捷方式 | 等价写法 | 含义 |
| \d | [0-9] | 数字 |
| \D | [^0-9] | 非数字 |
| \w | [A-Za-z0-9_] | 单词字符(字母、数字、下划线) |
| \W | [^A-Za-z0-9_] | 非单词字符 |
| \s | [ \t\n\r\f\v] | 空白字符(空格、制表符等) |
| \S | [^ \t\n\r\f\v] | 非空白字符 |

数量限定符

|--------|------------|--------|------------------|
| 语法 | 含义 | 示例 | 匹配 |
| {n} | 正好出现 n 次 | a{3} | aaa |
| {n,} | 至少出现 n 次 | a{2,} | aa, aaa, aaaa... |
| {n,m} | 出现 n 到 m 次 | a{2,4} | aa, aaa, aaaa |
| * | {0,}的简写 | | |
| + | {1,}的简写 | | |
| ? | {0,1}的简写 | | |

三、实战解析脚本中的正则

XML 复制代码
\"([^\"]*)\"  # 匹配双引号内的内容,并捕获到分组1
# 分解:
#   \"      匹配左双引号
#   (       开始捕获分组
#     [^\"]*  0个或多个非双引号字符
#   )       结束捕获分组
#   \"      匹配右双引号



/^[[:space:]]*\[/ && /\][[:space:]]*$$/

# 分解为两个部分:
# 1) /^[[:space:]]*\[/
#    ^           - 行开头
#    [[:space:]]* - 0个或多个空白字符
#    \[         - 左方括号 [(需要转义)

# 2) /\][[:space:]]*$$/
#    \]         - 右方括号 ]
#    [[:space:]]* - 0个或多个空白字符
#    $$         - 行结尾

#    匹配:[section]或 [another_section]
匹配键值对
XML 复制代码
^[[:space:]]*"KEY"[[:space:]]*=[[:space:]]*\"([^\"]*)\"

# 逐步理解:
# ^                     - 行开头
# [[:space:]]*         - 0个或多个空白字符
# "KEY"                - 要查找的键名
# [[:space:]]*         - 0个或多个空白字符
# =                    - 等号
# [[:space:]]*         - 0个或多个空白字符
# \"([^\"]*)\"         - 双引号内非引号的内容

# 示例匹配:host = "localhost"
常用正则
XML 复制代码
邮箱地址:
\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b

手机号码(中国)
1[3-9]\d{9}

IP地址
\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}

日期(YYYY-MM-DD)
\d{4}-\d{2}-\d{2}

URL
https?://[^\s]+
在 AWK 中的特殊用法

匹配操作符 ~!~

XML 复制代码
$1 ~ /^Error/     # 第一列以 Error 开头
$2 !~ /[0-9]/     # 第二列不包含数字

match()函数

XML 复制代码
match($0, /pattern/, arr)
# 将匹配结果存入数组 arr
# arr[0] = 整个匹配
# arr[1] = 第一个分组
XML 复制代码
match($$0, "^[[:space:]]*"KEY"[[:space:]]*=[[:space:]]*\"([^\"]*)\"", m)
# 匹配到的结果存入数组 m
# m[0] = 整个匹配(如:host = "localhost")
# m[1] = 第一个分组(如:localhost)

我们再看一个例子:

XML 复制代码
match($$0, "^[[:space:]]*"KEY"[[:space:]]*=[[:space:]]*(true|false)", m)

原始字符串:enabled = true

匹配过程:
1. ^                    从行首开始
2. [[:space:]]*        匹配0个或多个空白(这里可能是0个)
3. "KEY"               替换为实际的键名 enabled
4. [[:space:]]*        匹配0个或多个空白
5. =                   匹配等号
6. [[:space:]]*        匹配0个或多个空白
7. (true|false)        匹配 true 或 false
8. 结果:m[0] = "enabled = true",m[1] = "true"
使用在线工具练习

regex101 ------交互式学习

RegExr------ 实时测试

regex_learn------游戏化学习

相关推荐
碳基沙盒1 天前
OpenClaw 多 Agent 配置实战指南
运维
蝎子莱莱爱打怪4 天前
Centos7中一键安装K8s集群以及Rancher安装记录
运维·后端·kubernetes
DianSan_ERP5 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
呉師傅5 天前
火狐浏览器报错配置文件缺失如何解决#操作技巧#
运维·网络·windows·电脑
不是二师兄的八戒5 天前
Linux服务器挂载OSS存储的完整实践指南
linux·运维·服务器
zhangfeng11335 天前
趋动云 如何ssh登录 服务区 项目server
运维·人工智能·ssh
ZeroNews内网穿透5 天前
谷歌封杀OpenClaw背后:本地部署或是出路
运维·服务器·数据库·安全
失重外太空啦5 天前
nginx
运维·nginx
Gofarlic_oms15 天前
避免Kisssoft高级分析模块过度采购的科学评估方法
大数据·linux·运维·人工智能·matlab
田井中律.5 天前
服务器部署问题汇总(ubuntu24.04.3)
运维·服务器