正则表达式：字符串模式匹配的利器

正则表达式（Regular Expression，简称Regex）是一种强大的文本处理工具，用于描述字符串模式。它可以高效地进行字符串匹配、查找、替换和分割，广泛应用于文本处理、数据验证、搜索引擎等领域。本文将全面解析正则表达式的核心语法、Java实现及常见应用场景。

一、正则表达式基础语法

1. 元字符（Metacharacters）

元字符是正则表达式中具有特殊含义的字符，用于定义匹配规则。

元字符	描述	示例	匹配结果
`.`	匹配任意单个字符（除换行符）	`a.c`	`abc`, `aac`, `a1c`
`^`	匹配字符串开头	`^Hello`	`Hello world`
`$`	匹配字符串结尾	`world$`	`Hello world`
`*`	匹配前面的元素0次或多次	`ab*`	`a`, `ab`, `abb`
`+`	匹配前面的元素1次或多次	`ab+`	`ab`, `abb`
`?`	匹配前面的元素0次或1次	`ab?`	`a`, `ab`
`{n}`	匹配前面的元素恰好n次	`a{3}`	`aaa`
`{n,}`	匹配前面的元素至少n次	`a{2,}`	`aa`, `aaa`
`{n,m}`	匹配前面的元素n到m次	`a{2,3}`	`aa`, `aaa`

2. 字符类（Character Classes）

字符类用于匹配一组字符中的任意一个。

语法	描述	示例	匹配结果
`[abc]`	匹配a、b或c中的任意一个	`[abc]at`	`aat`, `bat`, `cat`
`[^abc]`	匹配除a、b、c外的任意字符	`[^0-9]`	非数字字符
`[a-z]`	匹配小写字母范围	`[a-z]+`	`hello`, `world`
`[0-9]`	匹配数字范围	`[0-9]{3}`	`123`, `456`
`[A-Za-z]`	匹配大小写字母	`[A-Za-z0-9]+`	字母数字组合

3. 预定义字符类

Java预定义了一些常用的字符类，简化正则表达式的编写。

预定义字符类	等价于	描述
`\d`	`[0-9]`	匹配数字
`\D`	`[^0-9]`	匹配非数字
`\w`	`[a-zA-Z0-9_]`	匹配字母、数字或下划线
`\W`	`[^a-zA-Z0-9_]`	匹配非字母、数字或下划线
`\s`	`[ \t\n\r\f]`	匹配空白字符（空格、制表符等）
`\S`	`[^ \t\n\r\f]`	匹配非空白字符

4. 分组与捕获

使用圆括号()进行分组，可以对匹配结果进行捕获和引用。

语法	描述	示例
`(ab)`	将ab作为一个分组	`(ab)+` 匹配`ab`, `abab`
`\1`	引用第一个分组的内容	`(a)\1` 匹配`aa`
`(?:ab)`	非捕获组，不保存匹配结果	`(?:ab)+`

5. 量词与贪婪模式

正则表达式默认采用贪婪模式（尽可能多匹配），可通过?转为非贪婪模式。

语法	描述	示例	匹配字符串	结果
`.*`	贪婪匹配任意字符	`<.*>`	`<html><body>`	`<html><body>`
`.*?`	非贪婪匹配任意字符	`<.*?>`	`<html><body>`	`<html>`, `<body>`

二、Java中的正则表达式实现

1. 核心类

Java通过java.util.regex包提供正则表达式支持，主要涉及两个类：

Pattern：编译后的正则表达式对象。
Matcher：对输入字符串进行匹配操作的引擎。

2. 基本用法示例

java 复制代码

import java.util.regex.*;

public class RegexExample {
    public static void main(String[] args) {
        // 1. 编译正则表达式
        Pattern pattern = Pattern.compile("a.c");
        
        // 2. 创建Matcher对象
        Matcher matcher = pattern.matcher("abc");
        
        // 3. 执行匹配
        boolean isMatch = matcher.matches();
        System.out.println(isMatch); // true
    }
}

3. 常用方法

方法	描述
`Pattern.compile(String regex)`	编译正则表达式，生成`Pattern`对象。
`Matcher.matches()`	尝试将整个输入序列与模式匹配。
`Matcher.find()`	查找输入序列中是否存在下一个匹配项。
`Matcher.group()`	返回当前匹配的子串。
`Matcher.start()`	返回当前匹配的起始位置。
`Matcher.end()`	返回当前匹配的结束位置（最后一个字符的索引+1）。
`String.replaceAll(String regex, String replacement)`	使用正则表达式替换匹配的子串。
`String.split(String regex)`	根据正则表达式分割字符串。

三、典型应用场景

1. 数据验证

java 复制代码

// 验证邮箱地址
String email = "test@example.com";
boolean isValid = email.matches("^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}$");

// 验证手机号（中国大陆）
String phone = "13800138000";
boolean isValidPhone = phone.matches("^1[3-9]\\d{9}$");

2. 文本提取

java 复制代码

// 提取HTML中的链接
String html = "<a href='https://example.com'>Example</a>";
Pattern pattern = Pattern.compile("<a href='(.*?)'>");
Matcher matcher = pattern.matcher(html);

while (matcher.find()) {
    System.out.println("链接: " + matcher.group(1)); // 输出: https://example.com
}

3. 字符串替换

java 复制代码

// 替换所有数字为*
String text = "Hello123World456";
String result = text.replaceAll("\\d", "*");
System.out.println(result); // 输出: Hello***World***

4. 分割字符串

java 复制代码

// 按逗号或空格分割字符串
String input = "apple,banana grape;orange";
String[] items = input.split("[,;\\s]+");
// 结果: ["apple", "banana", "grape", "orange"]

四、高级特性

1. 零宽断言（Lookaround）

零宽断言用于匹配特定位置，而不消耗字符。

语法	描述	示例	匹配结果
`(?=pattern)`	正向先行断言（后面必须匹配pattern）	`\w+(?=@)`	`test` in `test@example.com`
`(?!pattern)`	负向先行断言（后面不能匹配pattern）	`\d+(?!\.)`	`123` in `123abc`
`(?<=pattern)`	正向后行断言（前面必须匹配pattern）	`(?<=\$)\d+`	`100` in `$100`
`(?<!pattern)`	负向后行断言（前面不能匹配pattern）	`(?<!\$)\d+`	`100` in `100元`

2. 标志位（Flags）

编译正则表达式时可指定标志位，修改匹配行为。

标志	描述	示例
`Pattern.CASE_INSENSITIVE`	忽略大小写	`Pattern.compile("a.c", Pattern.CASE_INSENSITIVE)`
`Pattern.MULTILINE`	多行模式，`^`和`$`匹配行首行尾	`Pattern.compile("^Hello", Pattern.MULTILINE)`
`Pattern.DOTALL`	点号匹配所有字符（包括换行符）	`Pattern.compile(".*", Pattern.DOTALL)`

3. 回溯引用（Backreferences）

通过\1, \2等引用前面的捕获组。

java 复制代码

// 匹配重复单词（如"hello hello"）
String text = "hello hello world";
Pattern pattern = Pattern.compile("(\\b\\w+\\b)\\s+\\1");
Matcher matcher = pattern.matcher(text);
if (matcher.find()) {
    System.out.println("重复单词: " + matcher.group()); // 输出: hello hello
}

五、性能考量

预编译模式

频繁使用的正则表达式应编译为Pattern对象，避免重复编译开销。

java 复制代码

// 推荐做法
private static final Pattern EMAIL_PATTERN = Pattern.compile("^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}$");

避免过度回溯
- 复杂的量词组合（如.*）可能导致回溯爆炸，性能急剧下降。
java 复制代码
```
// 低效：可能产生大量回溯
"a*a".matches("aaaaaaaaaaaaaaaaaaaaaaaaaaaaa");
```
优先使用String方法
- 简单匹配（如startsWith()、contains()）比正则表达式效率更高。

六、注意事项

转义字符
- 正则表达式中的特殊字符（如\, ., *）需要用\转义。
java 复制代码
```
// 匹配点号
Pattern.compile("\\.");
```
Unicode支持
- 默认情况下，\w, \d等预定义字符类仅匹配ASCII字符。若需匹配Unicode字符，需使用标志位：
java 复制代码
```
Pattern.compile("\\p{L}+", Pattern.UNICODE_CHARACTER_CLASS); // 匹配所有语言的字母
```
正则表达式调试
- 复杂正则表达式建议使用工具（如Regex101）进行测试和调试。

七、面试常见问题

正则表达式中.*和.*?的区别是什么？
- .*是贪婪模式，尽可能多匹配；.*?是非贪婪模式，尽可能少匹配。
如何在Java中编译和使用正则表达式？
- 通过Pattern.compile()编译正则表达式，通过Matcher执行匹配。
正则表达式的零宽断言有哪些？
- 正向先行断言(?=pattern)、负向先行断言(?!pattern)、正向后行断言(?<=pattern)、负向后行断言(?<!pattern)。
如何优化正则表达式的性能？
- 预编译模式、避免过度回溯、优先使用String方法。

总结

正则表达式是处理字符串的强大工具，掌握其核心语法（元字符、字符类、量词、分组）和Java实现（Pattern、Matcher），能高效解决文本匹配、提取和替换等问题。在实际应用中，需注意性能优化和边界情况处理，避免因正则表达式过于复杂导致的效率问题。合理运用零宽断言、标志位等高级特性，可进一步提升正则表达式的表达能力。