Python 从入门到实战17(正则表达式操作)

我们的目标是:通过这一套资料学习下来,通过熟练掌握python基础,然后结合经典实例、实践相结合,使我们完全掌握python,并做到独立完成项目开发的能力。

上篇文章我们讨论了正则表达式的语法。今天进一步讨论一下正则表达式的一些操作。也是经常会用到的。

1、匹配字符串-match()方法

在python中match()方法用于从字符串的开始处进行匹配,如果起始位置匹配成功,则返回match对象,否在返回none

语法: re.match(pattern,string,[flags])

说明: pattern ---模式字符串,有要匹配的正则表达式转换而来

string ----要匹配的字符串

flags ----可选参数,表示标志位。用于控制匹配方式,如是否区分字母大小写。

例如写I为不区分大小写。

举例说明:

import re

#匹配字符串是否以www开头的

baidu_add ='www.baidu.com'

baidu_addr = "WWw.baidu.com"

myname = 'Wdevi'

pattern_www = r'WWW.+' #模式字符串

match1 = re.match(pattern_www,baidu_addr,re.I)

print(match1)

match2 = re.match(pattern_www,baidu_add,re.I)

print(match2)

match3 = re.match(pattern_www,myname,re.I)

print(match3)

输出结果:前两个字符串都能匹配,第三个显然不匹配:

2、匹配字符串-search()方法

在python中search()方法用于在整个字符串中搜索第一个要匹配的值,如果起始位置匹配成功,则返回match对象,否则返回none

和match()方法最大不同之处,search()是可以整个字符串中进行匹配的搜索。

语法格式:re.match(pattern,string,[flags])

说明:pattern ----模式字符串,有要匹配的正则表达式转换而来

string ----要匹配的字符串

flags ----可选参数,表示标志位。用于控制匹配方式,如是否区分字母大小写。

例如写I为不区分大小写。

举例说明:

import re

#匹配字符串是否以www开头的

baidu_add ='www.baidu.com'

baidu_addr = "百度网址:WWw.baidu.com"

pattern_www = r'WWW.+' #模式字符串

match1 = re.search(pattern_www,baidu_add,re.I)

print(match1)

match2 = re.search(pattern_www,baidu_addr,re.I)

print(match2)

输出结果:

举例说明,

import re

#搜索广告中敏感词汇,若是有"最好","最优秀","遥遥领先",输出有敏感词。否则无敏感词

advertisement_xiaomi= "小米小米,销量天下第一!"

advertisement_huawei= "华为华为,科技遥遥领先,是宇宙中最优秀的手机!"

pattern = r"(最好)|(最优秀)|(遥遥领先)"

search_xiaomi = re.search(pattern,advertisement_xiaomi)

search_huawei = re.search(pattern,advertisement_huawei)

if search_xiaomi is None:

print(advertisement_xiaomi,"无广告敏感词")

else:

print(advertisement_xiaomi,"有广告敏感词")

if search_huawei is None:

print(advertisement_huawei,"无广告敏感词")

else:

print(advertisement_huawei,"有广告敏感词")

输出结果:很明显,华为中有广告敏感词。

3、匹配字符串-findall()方法

在python中findall()方法用于在整个字符串中搜索所有符合正则表达式的字符串,且以列表的形式返回。如果匹配成功,则返回包含匹配结构的列表。

和match()方法最大不同之处,findall ()是可以整个字符串中进行匹配的搜索,匹配的都取出来放到列表中。

语法格式:re.findall(pattern,string,[flags])

说明:pattern ----模式字符串,有要匹配的正则表达式转换而来

string ----要匹配的字符串

flags ----可选参数,表示标志位。用于控制匹配方式,如是否区分字母大小写。

例如写I为不区分大小写。

举例说明:

#搜索广告中敏感词汇,若是有"最好","最优秀","遥遥领先",输出有敏感词。否则无敏感词

#通过列表输出所有的敏感词

advertisement_huawei= "华为华为,科技遥遥领先,是宇宙中最优秀的手机!"

pattern = r"最好|最优秀|遥遥领先"

search_huawei = re.findall(pattern,advertisement_huawei)

print("华为广告语敏感词:",search_huawei)

输出结果:

另外,举个匹配网址的例子:

#如通过指定模式字符串匹配IP地址127.0.0.1

pattern_ip = r'[1-9]{1,3}(\.[0-9]{1,3}){3}'

my_ip = '127.0.0.1 192.168.1.99'

match_all = re.findall(pattern_ip,my_ip)

print(match_all)

输出:

输出的是.1和.99两个元素,因为有括号分组的原因r'[1-9]{1,3}(\.[0-9]{1,3}){3}'

如是想输出完整的IP,需要整个模式字符串作为一组:r'([1-9]{1,3}(\.[0-9]{1,3}){3})'

#如通过指定模式字符串匹配IP地址127.0.0.1

pattern_ip = r'[1-9]{1,3}(\.[0-9]{1,3}){3}'

pattern_ip1 = r'([1-9]{1,3}(\.[0-9]{1,3}){3})'

my_ip = '127.0.0.1 192.168.1.99'

match_all = re.findall(pattern_ip,my_ip)

print(match_all)

match_all1 = re.findall(pattern_ip1,my_ip)

print(match_all1)

输出参考:

可以循环打印出两个完整IP:

for item in match_all1:

print(item[0])

4、替换字符串-sub()方法

可以通过sub()方法实现字符串的替换。

语法:re.sub(pattern,repl,string,count,flags)

参数说明:

说明:pattern ----模式字符串,有要匹配的正则表达式转换而来

repl-----表示要替换展示的字符串

string ----要被查找替换的原始的字符串

count -----可选参数,表示可以被替换的最大次数。默认值0,表示替换所有匹配

flags ----可选参数,表示标志位。用于控制匹配方式,如是否区分字母大小写。

例如写I为不区分大小写。

举个例子:

import re

#客户的一些信息,假如要412开头身份证号码(这里不考虑15位或者结尾x的情况)

替换为412xxxxxxxxxxxxxxx

pattern = r'412[0-9]{15}'

string_cust = "客户的身份证:412724198901118789"

result = re.sub(pattern,"412xxxxxxxxxxxxxxx",string_cust)

print(result)

输出结果:

5、使用正则表达式分割字符串

可以使用split()方法根据正则表达式来分割字符串,并且以列表的形式返回。

语法: re.split(pattern,string,[maxsplit],[flags])

说明:pattern ----模式字符串,有要匹配的正则表达式转换而来

string ----要被匹配的原始的字符串

maxsplit -----可选参数,表示最大的拆分次数

flags ----可选参数,表示标志位。用于控制匹配方式,如是否区分字母大小写。

例如写I为不区分大小写。

举例如下:

import re

#举例说明,分割请求接口地址:#http://ws.webxml.com.cn/ /MobileCodeWS.asmx?op=getDatabaseInfo

my_ip= 'http://ws.webxml.com.cn/MobileCodeWS.asmx?username="dewi"\&pwd="123456"\&op=getDatabaseInfo'

pattern = r"[?|&]"#以?或者&来分割字符串

result = re.split(pattern,my_ip) #按正则表达式分割url

print("url分割后:",result)

输出结果:

今天先写学习到这里了,每天进步一点点。今天也要加油啊!

相关推荐
加德霍克30 分钟前
【机器学习】使用scikit-learn中的KNN包实现对鸢尾花数据集或者自定义数据集的的预测
人工智能·python·学习·机器学习·作业
matlabgoodboy35 分钟前
代码编写java代做matlab程序代编Python接单c++代写web系统设计
java·python·matlab
l1x1n01 小时前
No.37 笔记 | Python面向对象编程学习笔记:探索代码世界的奇妙之旅
笔记·python·学习
wanfeng_091 小时前
视频m3u8形式播放 -- python and html
python·html·video·hls·m3u8
阿俊仔(摸鱼版)1 小时前
Python 常用运维模块之OS模块篇
运维·开发语言·python·云服务器
lly_csdn1232 小时前
【Image Captioning】DynRefer
python·深度学习·ai·图像分类·多模态·字幕生成·属性识别
西猫雷婶2 小时前
python学opencv|读取图像(四十一 )使用cv2.add()函数实现各个像素点BGR叠加
开发语言·python·opencv
金融OG2 小时前
99.11 金融难点通俗解释:净资产收益率(ROE)VS投资资本回报率(ROIC)VS总资产收益率(ROA)
大数据·python·算法·机器学习·金融
小唐C++4 小时前
C++小病毒-1.0勒索
开发语言·c++·vscode·python·算法·c#·编辑器
北 染 星 辰4 小时前
Python网络自动化运维---用户交互模块
开发语言·python·自动化