Python正则表达式(一)

目录

一、正则表达式的基本概念

1、基本概念

2、正则表达式的特殊字符

二、范围符号和量词

1、范围符号

2、匹配汉字

3、量词

三、正则表达式函数

1、使用正则表达式:

2、re.match()函数

3、re.search()函数

4、findall()函数

5、re.finditer()函数

6、迭代器

7、re.sub()函数

四、边界符号

五、分组


在Python的正则表达式中,我们可以用它来判断某个字符串是否符合某种模式,比如判断某个字符串是不是邮箱地址,是不是电话号码等,我们可以利用正则表达式在文本中寻找并抽取符合某种模式或格式

一、正则表达式的基本概念

1、基本概念

正则表达式是一个某些字符拥有一些特殊含义的字符串

下面我们介绍几个有特殊含义的功能字符:

|---------|---------------------------------------------|
| 字符组合 | 匹配模式 |
| . | 除了\n外的任意一个字符,包括汉字(多行匹配可能也包含\n) |
| * | 量词,表示其左边的字符可出现0次或任意多次(包括一次) |
| ? | 量词,表示其左边的字符必须出现一次或0次 |
| + | 量词,表示其左边的字符必须出现一次或更多次 |
| { m } | 量词,m是整数,表示其左边的字符必须且只能出现m次 |
| { m,n } | 量词,m和n都是整数,表示左边的字符至少出现m次,至多n次(n也可以不写,表示没有上限 |
| \d | 一个数字字符,等价于[0 , 9] |
| \D | 一个非数字字符,等价于[^\d] , [^0 , 9] |
| \s | 一个空白字符,如空格,\t , \r , \n |
| \S | 一个非空白字符 |
| \w | 一个单词字符,包括汉字或大小写的英文字母,数字,下划线,或其他语言的 |
| \W | 一个非单词符 |
| | | A | B,表示能匹配A或能匹配B均算能匹配 |

(注:上述这些组合是两个独立的字符,单纯的在字符串里面输出的话无效果,需结合相关的正则表达式函数!)

2、正则表达式的特殊字符

我们在正则表达式中常见的特殊字符有以下几个

. + ? * $ [ ] ( ) ^ { } \

如果要在正则表达式中使用上述这些字符本身,我们在前面加上**\**符号

(注:和刚刚上面一样,这些特殊字符加\符号只是两个独立的字符,本身无特殊含义,如果只是在字符串中输出,无效果,需结合正则表达式使用)

二、范围符号和量词

1、范围符号

在正则表达式中我们的范围符号用[]来表达,这个符号的意思是此处必须出现一个中括号内的所指定的范围的字符

相关用法:

|---------------|----------------------------------|
| 例子用法 | 含义 |
| [abc] | 此处需匹配a,b,c中的一个字符 |
| [a-zA-Z] | 匹配任意英文字母 |
| [\da-z\\] | 匹配一个数字或任意一个小写字母,或字符 |
| [^abc] | 匹配一个字符,但不能是abc中的一个 |
| [^a-k5-9] | 匹配一个字符,但不能是a到k中的一个,或者不能是5 到9中的一个 |

2、匹配汉字

汉字的Unicode编码范围是 4e00 - 9fa5 (16进制)因此[4e00 - 9fa5]就是表示一个汉字

3、量词

量词的使用十分灵活,我们可以把量词和上面提到的特殊字符结合起来,达到更加细致的匹配条件:

比如,我们可以把 . 和 + 结合起来," . "代表任意字符(除了\n),而+表示出现或多次(出现的字符不见得需要一样),结合起来就代表着匹配任意长度不为0且不包含\n的字符串

我们还可以在前面加上负号,来表示数字的范围:

正整数:[1-9]\d*(数字的最前面不能是0,所以先规定1-9,然后的\d是一个0-9的数字,再加一个*就是说这个\d可以出现0次或多次)

负整数:-[1-9]\d*(前面加一个负号即可)

整数:-?[1-9]\d* | 0(?表示可能出现一次或0次,涵盖了正负整数,再用|符号加一个0,就是全部整数)

三、正则表达式函数

1、使用正则表达式:

我们如果想要使用正则表达式,需要先调用re包

import re

2、re.match()函数

re.match()函数的格式:

re.match(pattern , string , flags = 0)

①从字符串string的起始位置匹配对应的正则表达式pattern

②flags是标志位,用于控制模式串的匹配方式,比如,是否区分大小写,多行匹配等,例子:re.M | re.I就是忽略大小写,且多行匹配

③成功就返回一个匹配对象,否则返回None

下面我们来看一个例子:

python 复制代码
import re

def match(pattern , string) :
    x = re.match(pattern , string)
    if x != None :
        print(x.group())    #group()是返回匹配到的字符串
    else :
        print(None)

match("scy" , "scymimimi")  #符合要求

match("scy" , "mimiscymimi")    #虽然包含scy,但是不是在开头

match(".{3}scy" , "miscyabdc")  #要求scy的左边必须包含三个字符,但是string中只有两个

输出:

3、re.search()函数

re.search()函数的格式:

re.search(pattern , string , flags = 0)

①查找字符串中,可以匹配成功的子串

②成功就返回一个匹配对象,否则返回None

我们把上面的代码稍加修改:

python 复制代码
import re

def matchtwo(pattern , string) :
    x = re.search(pattern , string)
    if x != None :
        print(x.group())    #group()是返回匹配到的字符串
    else :
        print(None)

matchtwo("scy" , "scymimimi")  #符合要求

matchtwo("scy" , "mimiscymimi")    #只要能在后面的string中找到符合规则的即可

matchtwo(".{3}scy" , "miscyabdc")  #要求scy的左边必须包含三个字符,但是string中只有两个,虽然能找到scy这个子串,但是不符合其他的条件

结果:

因为这是在整个字符串中找到符合要求的子串,如果我们的string十分的长,我们可以添加一个函数来使得查找更方便:x.span()

润色后的代码(只包含函数部分):

python 复制代码
def matchtwo(pattern , string) :
    x = re.search(pattern , string)
    if x != None :
        print(x.group() , x.span())    #group()是返回匹配到的字符串   x.span()是输出其子串的起止位置
    else :
        print(None)

结果:

4、findall()函数

在前面两个函数中,无论是哪一个函数,都是只找了第一个符合目标的子串,就返回了结果,如果我们想要找到全部符合要求的子串,就可以使用findall()函数:

re.findall()函数的格式:

re.findall(pattern , string , flags = 0)

对其目标字符串string中的所有和模式匹配的子串,不重叠的放入一个列表,一个子串都找不到就返回空列表[]

python 复制代码
import re

def findall(pattern , string) :
    x = re.findall(pattern , string)
    print(x)

findall("scy" , "abcd")

findall("scy" , "scy")

findall("scy" , "abcscy")

findall("scy" , "abcscydefscy")

findall("scy.{2}scy" , "scyascyscyabscybbdkkjscy8yscy")

5、re.finditer()函数

re.finditer()函数的格式:

re.finditer(pattern , string , flags = 0)

查找字符串中每个符合匹配对象的子串(不重叠),每个子串对应一个匹配对象,返回匹配对象的序列(可调用迭代器)

(迭代器:迭代器是一个根据具体参数来进行抽象操作的行为,比如我们我一篮子水果,我们想把每个水果拿出来检查以下,而迭代器就相当于水果分发器,把水果取出来,交给你)

例子:

python 复制代码
import re

a = "scy.{2}scy"

b = "scyascyscyabscybbdkkjscy8yscy"

for i in re.finditer(a , b) :
    print(i.group() , i.span())

输出:

(如果发现没有符合要求的子串,就无输出)

6、迭代器

关于迭代器,迭代器是没有group和span函数的,所以我们如果直接把finditer函数返回的东西和group函数结合使用是会报错的!

下面是一个错误的例子:

python 复制代码
import re

a = "scy.{2}scy"

b = "scyascyscyabscybbdkkjscy8yscy"

c = re.finditer(a , b)
print(c.group() , c.span())

这个代码会报错,因为代码中的c,是指finditer函数返回的迭代器本身,无法使用group函数,而上面正确的例子中那个i,因为在循环之中,每次循环i都会指向迭代器内一个新的且符合要求的匹配对象,对象中包含子串的一些信息!

我们上面那个正确的例子稍加修改:

python 复制代码
import re

a = "scy.{2}scy"

b = "scyascyscyabscybbdkkjscy8yscy"

for i in re.finditer(a , b) :
     print(i)

结果:

这个代码就是生成迭代器中每个符合要求的匹配对象,然后里面包含子串及相关信息

这些符合要求的匹配对象的集合,把他放到一个容器中,就是迭代器!

7、re.sub()函数

re.sub()函数用于把目标子串替换成我们所要替换的内容:

基本格式:

re.sub(模式串,替换串,母串)

例子:

python 复制代码
import re

str = "adhba8bkwjciehwajbjhsduagbshuchaobcsdjk"
a = re.sub("a.b" , "00000" , str)
print(a)

输出:

四、边界符号

边界符号用于指定字符的位置

我们下面会介绍几个边界符号:

|------|----------------------------|
| 边界符号 | 作用 |
| \A | 表示字符串的左边界,及要求从此处往左不能有任何字符 |
| \Z | 表示字符串的右边界,及要求从此处往右不能有任何字符 |
| ^ | 与\A同,但多行匹配下还可以表示一行文字的左边界 |
| $ | 与\Z同,但多行匹配下还可以表示一行文字的右边界 |
| \b | 表示此处是单词的左边界或右边界,即不可是单词字符 |
| \B | 表示此处不能是单词的左边界或右边界,即必须是单词字符 |

边界字符和上面那些范围符号一样,都只是一个或两个单独的字符不是和\n一样是一个字符!

五、分组

分组是正则表达式中很重要的一个概念,我们在Python的正则表达式中会用()来表达,一个括号的表达式是一个分组,多个分组按左括号,从左到右的顺序从1开始编号

例子:

python 复制代码
import re

zs = "(((abc*)d)e)"
str = "abcdefgh"
a = re.match(zs , str)
print(a.group())
print(a.group(0))    #group(0)等价于group()
print(a.group(1))
print(a.group(2))
print(a.group(3))
print(a.groups())

输出:

我们可以在分组的右面通过分组的编号来引用该分组匹配的字符串:

python 复制代码
import re

zs = r"(((abc*)d)e)\3"
str = "abcdeabccccfgh"
a = re.match(zs , str)
print(a.group())

这里的\3引用的就是(abc*),而(abc*)在前面得到是abc,所以\3就是abc

结果:

分组作为一个整体,后面可以跟量词

例子:

python 复制代码
import re

zs = r"(((abc*)+d)e)"
str = "abcabcabcabcdecfgh"
a = re.match(zs , str)
print(a.group())

输出:

(上述这些代码如果没有遇到能匹配的子串,就会报错,建议放到try里面)

以上就是Python正则表达式(一)的全部内容:)

相关推荐
网络风云5 分钟前
Flask(六)数据库与模型操作
数据库·python·flask
啊阿狸不会拉杆9 分钟前
第十五章:Python的Pandas库详解及常见用法
开发语言·python·数据分析·pandas
rqtz2 小时前
【C++指针】搭建起程序与内存深度交互的桥梁(下)
开发语言·c++·指针
AI让世界更懂你2 小时前
Python 包管理器 UV 全面介绍
开发语言·python·uv
milo.qu2 小时前
AI人工智能-Jupyter Notbook&Pycharm:Py开发
人工智能·python·jupyter·pycharm
IT猿手3 小时前
基于烟花算法(Fireworks Algorithm,FWA)及三次样条的机器人路径规划,50个场景任意选择,完整MATLAB代码
开发语言·算法·机器学习·matlab·机器人·无人机
厌世小晨宇yu.3 小时前
对Gpt关于泛型、Stream的提问
java·开发语言·gpt·ai
了一li3 小时前
2025年春招-Linux面经
开发语言·php
lllsure3 小时前
SpringMVC 拦截器(Interceptor)
java·开发语言·mysql
Learn-Share_HY3 小时前
[Python]如何利用Flask搭建一個Web服務器,並透過Ngrok訪問來實現LINE Bot功能?
linux·人工智能·python·ubuntu·flask·ollama·ngrok