正则表达式
1. 正则表达式概述
定义: 正则表达式是---套⽤于处理字符串的通⽤规则,在多种编程语⾔中通⽤,包括 C 、C++ 、Java 、JavaScript 、PHP 、Ruby等。
主要⽤途:
数据验证: 验证⽤户输⼊是否符合规范,例如⽤户名只能包含英⽂字⺟、数字和 下划线
数据提取: 从⼤量⽂本中快速提取特定格式的数据,如从⽹⻚中提取所有图⽚链 接
数据清洗: 处理从⽹络获取的数据,提取关键信息
跨语⾔特性: 正则表达式的语法规则在不同语⾔中基本相同,只是具体实现函数可能 不同
2. re模块操作
1)re模块的使⽤过程
导⼊模块: ⾸先需要导⼊Python的re模块,import re
匹配⽅法: 主要使⽤re.match()⽅法进⾏匹配
语法: result = re.match(正则表达式, 要匹配的字符串)
返回值: 如果匹配成功返回匹配对象,否则返回None
提取数据: 使⽤group()⽅法提取匹配到的数据
匹配原理: 正则表达式放在第---个参数,要处理的数据放在第⼆个参数
2)re模块示例
匹配过程:
从字符串开头开始匹配
如果匹配成功返回匹配对象
使⽤group()⽅法获取匹配结果
⼤⼩写匹配: 使⽤中括号[]可以匹配多个可能字符
二、正则表达式深入
1. re.match函数的使⽤
返回值意义:
有返回值表示匹配成功,数据符合规范
⽆返回值表示匹配失败,数据不符合规范
实际应⽤: 可以⽤来验证⽤户输⼊是否符合要求
正则表达式的返回值解释
匹配对象: 当正则表达式匹配成功时返回的对象
None: 当正则表达式匹配失败时返回的值
⼤⼩写敏感: 默认区分⼤⼩写,可以通过正则表达式规则处理
4. 正则表达式中的中括号⽤法
功能: 匹配括号内任意---个字符
Hh\]可以匹配⼤写H或⼩写h \[aeiou\]可以匹配任意---个元⾳字⺟ **5. 正则表达式的其他组成部分** **常⽤符号:** .: 匹配任意单个字符 \*: 匹配前---个字符0次或多次 +: 匹配前---个字符1次或多次 ?: 匹配前---个字符0次或1次 \|: 或运算符 (): 分组