正则表达式:文本处理中的瑞士军刀

正则表达式是用于提取字符串规律的规则,通过特定语法表达,以匹配符合该规律的字符串。它具有通用性,不仅适用于Python,也可用于其他编程语言。

下面我用Python的re模块 来进行实战演示:(记得import re

re模块 的主要功能有匹配、搜索、分割、匹配和替换......

re模块 的方法分为两大类:

  1. 直接使用re模块的方法
  2. 使用正则表达式对象

菜鸟营地

findall

python 复制代码
findall(pattern,string[,flags])
# pattern:指定的匹配模式 string:输入的字符串 
# flags:可选参数(用于表示匹配过程中的一些选项)
# 该函数返回值是一个列表

常用pattern

' . ':通配符,代表任意字符(\n除外),一个点一个字符,例如:

python 复制代码
ret = re.findall('m...e', 'cat and mouse') 
print(ret)#['mouse']

' * ':重复,运行*之前的一个字符重复多次,例如:

python 复制代码
ret1 = re.findall('o*i', 'oooooi and bye')
print(ret1)#['oooooi']

' ? ':也是重复匹配,允许?之前的字符只能重复0次或者1次,例如:

python 复制代码
ret2 = re.findall('ca?t', 'ct cat caat caaat')
print(ret2)#['ct', 'cat']

' + ':也是重复匹配,但是至少重复1次,不能是0次,例如:

python 复制代码
ret2 = re.findall('ca+t', 'ct cat caat caaat')
print(ret2)#['cat', 'caat', 'caaat']

' {} ':也是重复匹配,但是匹配次数可以自行设置,次数可以是一个数或者范围,例如:

|-------|---------------|
| {m} | 匹配前一个字符出现m次 |
| {m,} | 匹配前一个字符至少出现m次 |
| {m,n} | 匹配前一个字符出现m-n次 |

python 复制代码
ret3 = re.findall('ca{2}t', 'ct cat caat caaat caaaat')
print(ret3)#['caat']
ret3 = re.findall('ca{2,}t', 'ct cat caat caaat caaaat')
print(ret3)#['caat', 'caaat', 'caaaat']
ret3 = re.findall('ca{2,3}t', 'ct cat caat caaat caaaat')
print(ret3)#['caat', 'caaat']

' ^ ':必须从字符串的起始位置开始匹配,例如:

python 复制代码
ret5 = re.findall('^m...e', 'cat and mouse')
print(ret5)#[]
ret6 = re.findall('^m...e', 'mouse and cat')
print(ret6)#['mouse']

' $ ':值从最后开始匹配,例如:

python 复制代码
ret7 = re.findall('m...e$', 'cat and mouse')
print(ret7)#['mouse']

' | ':两个模式进行或的匹配,例如:

python 复制代码
ret8 = re.findall('cat|mouse', 'cat and mouse')
print(ret8)#['cat', 'mouse']

' \ ':转义字符,例如:

python 复制代码
ret9 = re.findall('/^m...e', '^mouse and cat')
print(ret9)#[]

|--------|--------------------|
| 字符 | 功能 |
| \d | 匹配数字,即0-9 |
| \D | 匹配非数字 |
| \s | 匹配空白,即空格,tab键 |
| \S | 匹配非空白 |
| \w | 匹配单词、字符 |
| \W | 匹配非单词字符 |
| | 匹配 中列举的字符的其中一个 |

python 复制代码
ret = re.findall('12[qaz]','13qwe12qwe')
print(ret)#['12q']

**\^**789:不匹配789中的一个,^是非的意思

python 复制代码
ret = re.findall('12[^qaz]','13qwe12pqwe')
print(ret)#['12p']

|-----|--------------------------|
| \b | 匹配一个单词的边界(字母数字和非字母数字的边界) |
| \B | 匹配非单词的边界 |

python 复制代码
ret = re.findall('oi\\b','oi.55llhihibye')
print(ret)#['oi']

即oi的右边不能有字母或数字!

python 复制代码
ret = re.findall('oi\\B','oi55llhihibye')
print(ret)#['oi']

即oi的右边必须有字母或数字!

常用flags

  • re.IGNORECASE:缩写re.I 表示忽略大小写
python 复制代码
ret = re.findall('m...e', 'cat and MOUSE')
print(ret)#[]
ret = re.findall('m...e', 'cat and mouse',re.IGNORECASE)
print(ret)#['mouse']
  • re.VERBOSE:缩写re.X 表示忽略模式中的空格,并可以使用#注释代码,提高 可读性
python 复制代码
phoneRegex = re.compile(r'''( (\d{3}|\(\d{3}\))? # area code
(\s|-|\.)? # separator
\d{3} # first 3 digits
(\s|-|\.) # separator
\d{4} # last 4 digits
(\s*(ext|x|ext.)\s*\d{2,5})? # extension
)''',re.VERBOSE)

可以按意义,分部分写。一部分写一行,后面加上注释。执行时,注释会被忽略。同时,多余的空白也会被忽略。如果用以前的方式写,则不小心写的空白,可能会改变正则表达式的意义

  • re.DOTALL:缩写re.S 表示使元字符也匹配换行符
python 复制代码
a = """hhhhoirerej     
jjjioioeer"""
print(re.findall(r'oi.*oi',a))#[]
print(re.findall(r'oi.*oi',a,re.S))#['oirerej     \njjjioi']

match

python 复制代码
re.match(pattern, string)# pattern  匹配的正则表达式 string  要匹配的字符串

**re.match()必须从字符串开头匹配!**match方法尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。

python 复制代码
a = re.match('bbbtest','bbbtestasdtest')
print(a)                             #返回一个匹配对象  <re.Match object; span=(0, 7), match='bbbtest'>
print(a.group())                     #返回test,获取不到则报错 bbbtest
print(a.span())           #返回匹配结果的位置,左闭右开区间 (0, 7)
print(re.match('test','atestasdtest'))  #返回None None

匹配整个字符串,并返回第一个成功的匹配

sub

替换指定的字符串

python 复制代码
re.sub(pattern,repl,string)
#pattern:要替换的数据 repl:替换成什么 string:源数据
python 复制代码
print(re.sub('cnm','hhhh','cnmcnms'))#hhhhhhhhs

split

对字符串进行分割,并返回一个列表

python 复制代码
s = "https:bbbsssd.com"
print(re.split("\.",s))           #以.号进行分割['https:bbbsssd', 'com']
print(re.split(":|\.",s))     #以:或者.进行分割['https', 'bbbsssd', 'com']
print(re.split(r",|:|-|%|\.",s))    #找不到的分隔符就忽略['https', 'bbbsssd', 'com']

贪婪

python里的数量词默认是贪婪的,总是尝试尽可能的匹配更多的字符。python中使用?号关闭贪婪模式

python 复制代码
print(re.match(r"qq\d+","qq666666"))   #会尽可能多的去匹配\d<re.Match object; span=(0, 8), match='qq666666'>
print(re.match(r"qq\d+?","qq66666777"))  #尽可能少的去匹配\d<re.Match object; span=(0, 3), match='qq6'>

华山论剑

提取图片地址

python 复制代码
import re
a='<img src="https://act-webstatic.mihoyo.com/hk4e/e20200928calculate/item_icon_u8f88e/32ea78b3df5ba600611c015475e648a4.png?x-oss-process=image%2Fresize%2Cw_104%2Fquality%2CQ_90%2Fformat%2Cwebp" class="recommend-popup__item-img">'
re = re.search("src=\"https.*\"",a)
print(re.group())#src="https://act-webstatic.mihoyo.com/hk4e/e20200928calculate/item_icon_u8f88e/32ea78b3df5ba600611c015475e648a4.png?x-oss-process=image%2Fresize%2Cw_104%2Fquality%2CQ_90%2Fformat%2Cwebp" class="recommend-popup__item-img"
#因为python是贪婪的
a='<img src="https://act-webstatic.mihoyo.com/hk4e/e20200928calculate/item_icon_u8f88e/32ea78b3df5ba600611c015475e648a4.png?x-oss-process=image%2Fresize%2Cw_104%2Fquality%2CQ_90%2Fformat%2Cwebp" class="recommend-popup__item-img">'
re = re.search(r'src="https\S+"', a)
if re:
    print(re.group())#src="https://act-webstatic.mihoyo.com/hk4e/e20200928calculate/item_icon_u8f88e/32ea78b3df5ba600611c015475e648a4.png?x-oss-process=image%2Fresize%2Cw_104%2Fquality%2CQ_90%2Fformat%2Cwebp"
相关推荐
Web极客码7 分钟前
如何通过 Python + LLM 用最少的 Token 完成精准推荐任务
开发语言·人工智能·python·ai
一晌小贪欢26 分钟前
第26节:自动化办公——利用 Python 自动生成动态分析报告 (PPT/PDF)
开发语言·python·数据分析·自动化·powerpoint·pandas·数据可视化
西西弗Sisyphus1 小时前
YOLO26 自定义损失函数 重写 init_criterion 方法 损失类不继承基类
pytorch·python·yolo·yolo11·yolo26
装不满的克莱因瓶1 小时前
RLHF中的PPO算法——大语言模型对齐优化的核心引擎
人工智能·python·深度学习·算法·机器学习·语言模型·自然语言处理
c_lb72881 小时前
期货主连研究具体月实盘:KQ 连续与标的月份偏差怎么记
python·区块链
绘梨衣5471 小时前
采集基类设计遇到的描述符bug
爬虫·python·bug
TechWayfarer1 小时前
IP精准定位服务在保险行业的接入实践:区域需求洞察与精准服务
数据库·python·tcp/ip·flask
Li#2 小时前
AI编写操作使用说明书需要用到的工具和能力
python·ai编程·ai写作
红宝村村长2 小时前
torch.autograd.Function.apply()
开发语言·python
花间相见2 小时前
【LeetCode01】—— 无重复字符的最长子串:滑动窗口经典题详解
python·算法·leetcode