正则表达式：文本处理的瑞士军刀

正则表达式（Regular Expression，简称 Regex ）是一种用于匹配、查找和操作文本的强大工具。它通过定义一种特殊的字符串模式，可以快速地在文本中搜索、替换或提取符合特定规则的内容。正则表达式广泛应用于编程、文本编辑、数据处理等领域，是每个开发者必备的技能之一。

一、正则表达式的核心概念

1. 模式（Pattern）

正则表达式的核心是一个模式字符串，它定义了需要匹配的文本规则。例如：

\d 匹配任意数字（0-9）
[a-z] 匹配任意小写字母
.* 匹配任意字符（除换行符外）

2. 匹配（Match）

在目标文本中查找符合模式的内容。例如：

正则表达式 \d{3} 可以匹配文本中的任意连续3个数字（如 "123"）。

3. 捕获组（Capture Group）

用括号 () 将部分模式括起来，可以提取匹配的子内容。例如：

正则表达式 (\d{4})-(\d{2})-(\d{2}) 可以匹配日期格式 "2023-10-05"，并分别捕获年、月、日。

二、正则表达式的语法规则

1. 基本元字符

元字符	描述	示例
`.`	匹配任意单个字符（除换行符外）	`a.c` 匹配 "abc"
`\d`	匹配任意数字（0-9）	`\d{3}` 匹配 "123"
`\w`	匹配字母、数字或下划线	`\w+` 匹配 "hello_123"
`\s`	匹配空白字符（空格、制表符等）	`\s+` 匹配 " "

2. 量词

量词	描述	示例
`*`	匹配前一个元素0次或多次	`a*` 匹配 ""、"a"、"aa"
`+`	匹配前一个元素1次或多次	`\d+` 匹配 "1"、"123"
`?`	匹配前一个元素0次或1次	`a?` 匹配 ""、"a"
`{n}`	匹配前一个元素恰好n次	`\d{3}` 匹配 "123"
`{n,m}`	匹配前一个元素至少n次，至多m次	`\d{2,4}` 匹配 "12"、"1234"

3. 字符类

语法	描述	示例
`[abc]`	匹配括号内的任意一个字符	`[aeiou]` 匹配 "a"、"e"
`[^abc]`	匹配不在括号内的任意字符	`[^0-9]` 匹配 "a"、"!"
`[a-z]`	匹配范围内的任意字符	`[A-Za-z]` 匹配大写或小写字母

4. 边界匹配

语法	描述	示例
`^`	匹配字符串的开头	`^Hello` 匹配 "Hello world" 的开头
`$`	匹配字符串的结尾	`world$` 匹配 "Hello world" 的结尾
`\b`	匹配单词边界	`\bcat\b` 匹配 "cat" 但不匹配 "category"

三、正则表达式的应用场景

1. 数据验证

验证邮箱格式：

regex 复制代码

^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$

验证手机号格式：
regex 复制代码
```
^1[3-9]\d{9}$
```

2. 文本搜索与替换

查找所有日期：
regex 复制代码
```
\d{4}-\d{2}-\d{2}
```
替换HTML标签：
regex 复制代码
```
<[^>]+>
```

3. 数据提取

提取URL中的域名：
regex 复制代码
```
https?://([^/\s]+)
```
提取文本中的所有数字：
regex 复制代码
```
\d+
```

四、正则表达式的编程实现（C++示例）

C++11 引入了 <regex> 库，支持正则表达式操作。以下是一个简单的示例：

cpp 复制代码

#include <iostream>
#include <regex>
#include <string>

int main() {
    std::string text = "Contact us at support@example.com or sales@domain.com.";
    std::regex emailPattern(R"(\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b)");

    auto words_begin = std::sregex_iterator(text.begin(), text.end(), emailPattern);
    auto words_end = std::sregex_iterator();

    std::cout << "Found emails:\n";
    for (std::sregex_iterator i = words_begin; i != words_end; ++i) {
        std::smatch match = *i;
        std::cout << match.str() << '\n';
    }

    return 0;
}

输出：

复制代码

Found emails:
support@example.com
sales@domain.com

五、正则表达式的性能优化

1. 避免贪婪匹配

贪婪匹配（默认）：
regex 复制代码
```
<.*>
```
匹配整个 <div>content</div>。
非贪婪匹配：
regex 复制代码
```
<.*?>
```
匹配 <div> 和 </div> 两个标签。

2. 预编译正则表达式

在多次使用同一正则表达式时，预编译可以显著提高性能：

cpp 复制代码

std::regex emailPattern(R"(\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b)");

3. 使用非捕获组

如果不需要捕获组的内容，使用 (?:...) 可以提高性能：

regex 复制代码

(?:\d{4})-(?:\d{2})-(?:\d{2})

六、正则表达式的学习资源

在线测试工具：
- Regex101
- RegExr
经典书籍：
- 《精通正则表达式》（Jeffrey E.F. Friedl）
- 《正则表达式必知必会》
练习平台：
- LeetCode 正则表达式题目
- HackerRank Regex Challenges

正则表达式是文本处理的利器，但也需要谨慎使用。掌握其核心语法和优化技巧，可以让你在数据处理中事半功倍！