SQL 实战：正则表达式匹配 – 高效数据筛选与文本解析

在实际业务中，我们常常需要对存储在数据库中的文本数据进行复杂筛选和解析。MySQL 提供了强大的正则表达式函数，可以批量筛选出符合或不符合特定规则的文本数据，避免手动筛查的低效方式。

本篇文章将详细介绍如何使用 REGEXP 、REGEXP_REPLACE 和 REGEXP_LIKE 处理复杂文本匹配需求，通过示例讲解如何高效地筛选手机号、邮箱以及其他格式化文本数据。

一、MySQL 正则表达式函数概览

函数	说明	示例
REGEXP	判断字符串是否匹配正则表达式，返回 `1`（匹配）或 `0`（不匹配）	`WHERE email REGEXP '^[a-z0-9._%+-]+@[a-z0-9.-]+'`
REGEXP_LIKE()	与 `REGEXP` 类似，返回 `TRUE` 或 `FALSE`	`REGEXP_LIKE(phone, '^1[3-9][0-9]{9}$')`
REGEXP_REPLACE()	使用正则表达式替换字符串	`REGEXP_REPLACE(phone, '[^0-9]', '')`
REGEXP_INSTR()	返回正则表达式匹配的起始位置	`REGEXP_INSTR(email, '@')`
REGEXP_SUBSTR()	提取匹配正则表达式的子字符串	`REGEXP_SUBSTR(email, '[a-z0-9._%+-]+')`

二、实战案例

案例 1：筛选不符合手机号格式的用户

需求描述 ：

在用户管理系统中，需要筛选出手机号格式不符合规则的用户记录。有效的手机号格式：以 1 开头，第二位为 3-9，并且长度为 11 位。

表结构 `users`

user_id	name	phone
1	张三	13812345678
2	李四	15987654321
3	王五	12345678901
4	赵六	188-7654-321

SQL 实现

sql 复制代码

SELECT user_id, name, phone  
FROM users  
WHERE phone NOT REGEXP '^1[3-9][0-9]{9}$';

查询结果

user_id	name	phone
3	王五	12345678901
4	赵六	188-7654-321

解释：

正则表达式解析 ：
- ^1：以 1 开头。
- [3-9]：第二位必须是 3-9 之间的数字。
- [0-9]{9}：后续必须是 9 位数字，总长度正好 11 位。
NOT REGEXP 反向筛选出不符合规范的手机号记录。

案例 2：批量清洗手机号格式

需求描述 ：

部分用户手机号中包含空格或 - 分隔符，需要批量清洗手机号，确保只保留数字。

SQL 实现

sql 复制代码

UPDATE users  
SET phone = REGEXP_REPLACE(phone, '[^0-9]', '')  
WHERE phone REGEXP '[^0-9]';

更新后数据

user_id	name	phone
1	张三	13812345678
2	李四	15987654321
3	王五	12345678901
4	赵六	1887654321

解释：

REGEXP_REPLACE() 使用正则表达式匹配非数字字符，将其替换为空字符串，实现手机号格式清洗。
匹配 [0-9] 之外的字符，批量去除空格、短横线等分隔符。

案例 3：筛选邮箱格式不正确的用户

需求描述 ：

邮箱地址需要符合标准格式：包含字母、数字、_、.，且必须包含 @ 符号和域名后缀。筛选出格式错误的邮箱记录。

表结构 `users`

user_id	name	email
1	张三	zhangsan@example.com
2	李四	lisi@company
3	王五	wangwu.com
4	赵六	zhaoliu@example.org

SQL 实现

sql 复制代码

SELECT user_id, name, email  
FROM users  
WHERE email NOT REGEXP '^[a-z0-9._%+-]+@[a-z0-9.-]+\\.[a-z]{2,4}$';

查询结果

user_id	name	email
2	李四	lisi@company
3	王五	wangwu.com

解释：

正则解析 ：
- ^ 表示从字符串开始匹配。
- [a-z0-9._%+-]+ 匹配邮箱前缀（字母、数字和特殊字符）。
- @ 必须包含 @ 符号。
- [a-z0-9.-]+ 匹配域名部分。
- \\. 匹配 .，双斜杠用于转义。
- [a-z]{2,4} 匹配顶级域名（长度为 2 到 4 个字母）。

案例 4：提取邮箱用户名部分

需求描述 ：

在营销活动中需要提取邮箱地址中 @ 符号之前的用户名部分。

SQL 实现

sql 复制代码

SELECT user_id, email, REGEXP_SUBSTR(email, '^[^@]+') AS username  
FROM users;

查询结果

user_id	email	username
1	zhangsan@example.com	zhangsan
2	lisi@company	lisi
3	wangwu.com	wangwu.com
4	zhaoliu@example.org	zhaoliu

解释：

REGEXP_SUBSTR() 提取匹配的子字符串。
正则表达式 ^[^@]+ 表示从头部开始匹配，直到遇到 @ 符号为止。

三、优化建议与注意事项

1. 索引优化

在正则表达式匹配中，MySQL 不会自动使用索引，如果数据量大，查询可能较慢。可以在清洗数据后，使用普通索引加速查询。

2. 性能提升建议

使用正则表达式进行复杂筛选时，可在应用层提前过滤，减少对数据库的压力。
定期清洗数据，避免脏数据积累，提升查询和更新效率。

四、总结

MySQL 提供了强大的正则表达式函数，可以高效筛选和清洗非结构化文本数据。
常用的 REGEXP 、REGEXP_REPLACE() 和 REGEXP_LIKE() 可以帮助开发者轻松处理手机号、邮箱和其他文本格式化需求。
通过正则表达式筛选脏数据，有助于提升数据质量，保障系统稳定运行。

SQL 实战：正则表达式匹配 – 高效数据筛选与文本解析

一、MySQL 正则表达式函数概览

二、实战案例

案例 1：筛选不符合手机号格式的用户

表结构 users

SQL 实现

查询结果

案例 2：批量清洗手机号格式

SQL 实现

更新后数据

案例 3：筛选邮箱格式不正确的用户

表结构 users

SQL 实现

查询结果

案例 4：提取邮箱用户名部分

SQL 实现

查询结果

三、优化建议与注意事项

1. 索引优化

2. 性能提升建议

四、总结

表结构 `users`

表结构 `users`