正则表达式

Python通过re模块实现对正则表达式的支持

匹配操作

re.match(pattern, string)从字符串的开始进行匹配,如果开始部分匹配成功就返回陪陪对象,否则返回None

python 复制代码
import re

m = re.match('foo', 'food') # 返回匹配对象
print(m)    # <re.Match object; span=(0, 3), match='foo'>

m = re.match('foo', 'fbar')
print(m)    # None
搜索操作

re.search(pattern, string)扫描字符串,如果找到匹配就返回匹配对象,否则返回None

python 复制代码
m = re.search('foo', 'hellofood')
print(m)    # <re.Match object; span=(5, 8), match='foo'>

m = re.search('foo', 'hello')
print(m)    # None
提取操作

re.findall(pattern, string)查找所有匹配,返回所有匹配结果的列表,没有匹配到就返回空列表

python 复制代码
lst = re.findall('ab', 'abcdabcdabcd')
print(lst)  # ['ab', 'ab', 'ab']

re.finditer(pattern, string)查找所有匹配,返回所有匹配结果的一个iterator

python 复制代码
lst = re.finditer('ab', 'abcdabcdabcd')
print(lst)    # <callable_iterator object at 0x00000243E0D51FD0>

for i in lst:
    print(f"{i}  {i.group()}")

"""
<re.Match object; span=(0, 2), match='ab'>  ab
<re.Match object; span=(4, 6), match='ab'>  ab
<re.Match object; span=(8, 10), match='ab'>  ab
"""
替换操作

re.sub(pattern, string)用于替换匹配的字符串

python 复制代码
text = "I am the bone of my sword"
print(re.sub('sword', 'blade', text))
# I am the bone of my blade
匹配字符

|------|---------------------------|
| 字符 | 功能 |
| . | 匹配任意1个字符(除了\n) |
| [] | 匹配[]中列举的字符 |
| \d | 匹配数字,即0-9 |
| \D | 匹配非数字 |
| \s | 匹配空白,即空格,tab键 |
| \S | 匹配非空白 |
| \w | 匹配非特殊字符,即a-z、A-Z、0-9、_、汉字 |
| \W | 匹配特殊字符,即非字母、非数字、非汉字 |

匹配多个字符

|-------|----------------------------|
| 字符 | 功能 |
| * | 匹配前一个字符0次或者无限次,即可有可无 |
| + | 匹配前一个字符出现1次或者无限次,即至少1次 |
| ? | 匹配前一个字符出现1次或者0次,即要么1次,要么没有 |
| {m} | 匹配前一个字符出现m次 |
| {m,n} | 匹配前一个字符出现从m到n次 |

*示例
python 复制代码
import re

ret = re.match("[A-Z][a-z]*", "M")
print(ret.group())    # M

ret = re.match("[A-Z][a-z]*", "MnnM")
print(ret.group())    # Mnn

ret = re.match("[A-Z][a-z]*", "AabbccCdd")
print(ret.group())    # Aabbcc
+示例
python 复制代码
match_obj = re.match("py.+n", "python")
if match_obj:
    print(match_obj.group())
else:
    print("匹配失败")

# python
?示例
python 复制代码
match_obj = re.match("https?", "http")
if match_obj:
    print(match_obj.group())
else:
    print("匹配失败")

# http
{m}、{m,n}示例
python 复制代码
ret = re.match("[a-zA-Z0-9_]{6}","12a3G345H")
print(ret.group())  # 12a3G3

ret = re.match("[a-zA-Z0-9_]{8,20}","1a2b3c4d5e6f7g8h9ijklmn")
print(ret.group())  # 1a2b3c4d5e6f7g8h9ijk
贪婪模式与非贪婪模式

在正则表达式中,贪婪模式和非贪婪模式描述的是量词的匹配方式。

量词是正则表达式中指定匹配次数的元字符,主要有:

*:0次或多次

?:0次或1次

+:1次或多次

贪婪模式:两次会尽可能多的匹配字符

非贪婪模式:两次会尽可能少的匹配字符

在正则表达式中,贪婪模式是默认的,可以通过在量词后面加?将其转换为非贪婪模式

python 复制代码
import re

# 贪婪模式
ret = re.match("<div>.+</div>", "<div>111</div><div>222</div>")
print(ret.group())  # <div>111</div><div>222</div>

# 非贪婪模式
ret = re.match("<div>.+?</div>", "<div>111</div><div>222</div>")
print(ret.group())  # <div>111</div>
匹配开头和结尾

^:匹配字符串开头

python 复制代码
import re

# 匹配以数字开头的数据
match_obj = re.match("^\d.*", "6hello")
if match_obj:
    print(match_obj.group())
else:
    print("匹配失败")

$:匹配字符串结尾

python 复制代码
# 匹配以数字结尾的数据
match_obj = re.match(".*\d$", "saber1")
if match_obj:
    print(match_obj.group())
else:
    print("匹配失败")

\^指定字符\]:匹配指定字符以外的所有字符 ```python match_obj = re.match("[^abc]", "d") if match_obj: print(match_obj.group()) else: print("匹配失败") ``` ###### 匹配分组 |--------------|---------------------| | 字符 | 功能 | | \| | 匹配左右任意一个表达式 | | (ab) | 将括号中的字符作为一个分组 | | \\num | 引用分组num匹配到的字符串 | | (?P\) | 分组起别名 | | (?P=name) | 引用别名为name的分组匹配到的字符串 | ```python import re lst = ["archer", "saber", "lancer", "rider"] for value in lst: match_obj = re.match("saber|archer", value) if match_obj: print(f"{match_obj.group()} nice!") else: print(value) ``` ```python # 匹配邮箱 match_obj = re.match("\w{4,20}@(163|126|qq)\.com", "archer@qq.com") if match_obj: print(match_obj.group()) else: print("匹配失败") ``` ```python # 匹配 电话:10086 类似的数据,提取"电话"文字和号码 match_obj = re.match("(电话):([1-9]\d{4,10})", "电话:10086") if match_obj: print(match_obj.group()) # 分组:默认是1一个分组,多个分组从左到右依次加1 print(match_obj.group(1)) # 提取第二个分组数据 print(match_obj.group(2)) else: print("匹配失败") # 电话 # 10086 ``` ```python match_obj = re.match("<[a-zA-Z1-6]+>.*", "abc

") if match_obj: print(match_obj.group()) else: print("匹配失败") match_obj = re.match("<([a-zA-Z1-6]+)>.*", "abc") if match_obj: print(match_obj.group()) else: print("匹配失败") # abc
# abc ``` ```python match_obj = re.match("<(?P[a-zA-Z1-6]+)><(?P[a-zA-Z1-6]+)>.*", "

www.baidu.com

") if match_obj: print(match_obj.group()) else: print("匹配失败") ``` ###### 正则中标志的使用 |-------------------|----------------------| | 字符 | 功能 | | re.I (IGNORECASE) | 忽略大小写 | | re.M (MULTILINE) | 多行匹配,修改'\^'和'$'的行为 | | re.S (DOTALL) | **.**可以匹配所有字符,包含换行符 | | re.U (UNICODE) | 使用Unicode匹配 | | re.X (VERBOSE) | 忽略空格和注释,使正则表达式更具有可读性 | ```python import re # 忽略大小写 m1 = re.match('[a-z]+','Hello', re.I) if m1: print(m1.group()) else: print('m1:匹配失败') # .可以匹配所有字符,包含换行符 m2 = re.match('.+', "Hello\n\tWorld", re.S) if m2: print(m2.group()) else: print('m2:匹配失败') # 忽略空格和注释,使正则表达式更具有可读性 m3 = re.match(r""" ^ ( [a-z]+[A-Z]* | [A-Z]+[a-z]* ) \s+ (World) ""","Hello World", re.X) print(m3.group()) # Hello # Hello # World # Hello World ```

上一篇:Android-app自动更新总结(已适配9-0)(1)
下一篇:QT实现多摄像头监控
相关推荐
前端世界2 天前
Python 正则表达式实战:用 Match 对象轻松解析拼接数据流
python·正则表达式·php
Edward.W3 天前
别再和正则表达式死磕了!这套AI工具集让你的开发效率翻倍⚙️[特殊字符]
人工智能·正则表达式
beijingliushao3 天前
58-正则表达式
数据库·python·mysql·正则表达式
雷达学弱狗3 天前
正则表达式,字符串的搜索与替换
正则表达式
良木林3 天前
JS中正则表达式的运用
前端·javascript·正则表达式
ComputerInBook3 天前
C++编程语言:标准库:第37章——正则表达式(Bjarne Stroustrup)
开发语言·c++·正则表达式
雷达学弱狗3 天前
正则表达式与转义符的区别。注意输入的东西经过了一次转义,一次正则表达式。\\转义是单斜杠\\在正则表达式也是单斜杠所以\\\\经过两道门才是字符单斜杠
正则表达式
Zzz_睡不醒4 天前
JS(正则表达式)
javascript·正则表达式·c#
啊啊啊啊8434 天前
函数,数组与正则表达式
前端·chrome·正则表达式
MediaTea5 天前
Python:正则表达式
开发语言·c++·python·正则表达式