文章目录
正则表达式
Python 的正则表达式(Regular Expression)功能非常强大,它允许你进行复杂的字符串匹配和查找。Python 中使用正则表达式的标准库是 re。
基本使用
下面是一些基本的使用方式:
匹配字符串
python
import re
pattern = "abc"
text = "abcdef abcdef"
match = re.search(pattern, text)
if match:
print("找到匹配:", match.group())
else:
print("没有找到匹配")
查找所有匹配
python
import re
pattern = "abc"
text = "abcdef abcdef abcdef"
matches = re.findall(pattern, text)
print("找到所有匹配:", matches)
替换字符串
python
import re
pattern = "abc"
replace_with = "xyz"
text = "abcdef abcdef abcdef"
new_text = re.sub(pattern, replace_with, text)
print("替换后的文本:", new_text)
元字符
正则表达式包含一些特殊字符(称为元字符),它们具有特殊的含义:
- . : 匹配除换行符以外的任意字符
- ^ : 匹配字符串的开头
- $ : 匹配字符串的末尾
-
- : 匹配前面的子表达式零次或多次
-
- : 匹配前面的子表达式一次或多次
- ? : 匹配前面的子表达式零次或一次
- {m,n} : 匹配前面的子表达式至少 m 次且最多 n 次
字符集
-
...\] : 匹配字符集内的任意一个字符
- \d : 匹配一个数字字符,等价于 [0-9]
- \D : 匹配一个非数字字符,等价于 [^0-9]
- \w : 匹配包括下划线的任何单词字符,等价于 [A-Za-z0-9_]
- \W : 匹配任何非单词字符,等价于 [^A-Za-z0-9_]
- \s : 匹配任何空白字符,包括空格、制表符、换页符等等,等价于 [ \f\n\r\t\v]
- \S : 匹配任何非空白字符,等价于 [^ \f\n\r\t\v]
分组和引用
- (...) : 匹配括号内的表达式,也表示一个组
- \number : 引用编号为 number 的组匹配到的文本
re.match函数
函数原型
python
re.match(pattern, string, flags=0)
- pattern: 正则表达式的模式字符串。
- string: 要匹配的字符串。
- flags: 可选参数,用于修改正则表达式的匹配方式,如忽略大小写、多行模式等。可能的值包括:
- re.I: 忽略大小写
- re.M: 多行模式
- re.S: 使.匹配包括换行符在内的所有字符
- re.X: 允许使用空格和#注释正则表达式
示例
python
import re
# 匹配字符串开头的 "Hello"
pattern = "Hello"
string = "Hello, world!"
match = re.match(pattern, string)
if match:
print("找到匹配:", match.group())
else:
print("没有找到匹配")
输出将是:
python
找到匹配: Hello
如果尝试匹配的字符串不是以"Hello"开头,re.match()将返回None。
python
string = "Hi, world!"
match = re.match(pattern, string)
if match:
print("找到匹配:", match.group())
else:
print("没有找到匹配")
输出将是:
python
没有找到匹配
注意事项
- re.match()只匹配字符串的开始部分,如果模式出现在字符串的中间或结尾,它将不会匹配。
- 如果你想检查整个字符串是否与模式匹配,可以使用re.fullmatch()。
- 如果你想查找字符串中的所有匹配项,可以使用re.findall()或re.finditer()。