Python正则表达式（一）

|---------|---------------------------------------------|
| 字符组合 | 匹配模式 |
| . | 除了\n外的任意一个字符，包括汉字（多行匹配可能也包含\n） |
| * | 量词，表示其左边的字符可出现0次或任意多次（包括一次） |
| ？ | 量词，表示其左边的字符必须出现一次或0次 |
| + | 量词，表示其左边的字符必须出现一次或更多次 |
| { m } | 量词，m是整数，表示其左边的字符必须且只能出现m次 |
| { m，n } | 量词，m和n都是整数，表示左边的字符至少出现m次，至多n次（n也可以不写，表示没有上限 |
| \d | 一个数字字符，等价于 $0 , 9$ |
| \D | 一个非数字字符，等价于 $\^\\d$ , $\^0 , 9$ |
| \s | 一个空白字符，如空格，\t , \r , \n |
| \S | 一个非空白字符 |
| \w | 一个单词字符，包括汉字或大小写的英文字母，数字，下划线，或其他语言的 |
| \W | 一个非单词符 |
| | | A | B,表示能匹配A或能匹配B均算能匹配 |

（注：上述这些组合是两个独立的字符，单纯的在字符串里面输出的话无效果，需结合相关的正则表达式函数！）

2、正则表达式的特殊字符

我们在正则表达式中常见的特殊字符有以下几个

. + ? * $ ( ) ^ { } \

如果要在正则表达式中使用上述这些字符本身，我们在前面加上**\**符号

（注：和刚刚上面一样，这些特殊字符加\符号只是两个独立的字符，本身无特殊含义，如果只是在字符串中输出，无效果，需结合正则表达式使用）

二、范围符号和量词

1、范围符号

在正则表达式中我们的范围符号用\[\]来表达，这个符号的意思是此处必须出现一个中括号内的所指定的范围的字符

2、匹配汉字

汉字的Unicode编码范围是 4e00 - 9fa5 （16进制）因此 $4e00 - 9fa5$ 就是表示一个汉字

3、量词

量词的使用十分灵活，我们可以把量词和上面提到的特殊字符结合起来，达到更加细致的匹配条件：

比如，我们可以把 . 和 + 结合起来，" . "代表任意字符（除了\n），而+表示出现或多次（出现的字符不见得需要一样），结合起来就代表着匹配任意长度不为0且不包含\n的字符串

我们还可以在前面加上负号，来表示数字的范围：

正整数： $1-9$ \d*（数字的最前面不能是0，所以先规定1-9，然后的\d是一个0-9的数字，再加一个*就是说这个\d可以出现0次或多次）

负整数：- $1-9$ \d*（前面加一个负号即可）

整数：-？ $1-9$ \d* | 0（？表示可能出现一次或0次，涵盖了正负整数，再用|符号加一个0，就是全部整数）

三、正则表达式函数

1、使用正则表达式：

我们如果想要使用正则表达式，需要先调用re包

import re

2、re.match()函数

re.match()函数的格式：

re.match(pattern , string , flags = 0)

①从字符串string的起始位置匹配对应的正则表达式pattern

②flags是标志位，用于控制模式串的匹配方式，比如，是否区分大小写，多行匹配等，例子：re.M | re.I就是忽略大小写，且多行匹配

③成功就返回一个匹配对象，否则返回None

下面我们来看一个例子：

python 复制代码

import re

def match(pattern , string) :
    x = re.match(pattern , string)
    if x != None :
        print(x.group())    #group()是返回匹配到的字符串
    else :
        print(None)

match("scy" , "scymimimi")  #符合要求

match("scy" , "mimiscymimi")    #虽然包含scy，但是不是在开头

match(".{3}scy" , "miscyabdc")  #要求scy的左边必须包含三个字符，但是string中只有两个

输出：

3、re.search()函数

re.search()函数的格式：

re.search(pattern , string , flags = 0)

①查找字符串中，可以匹配成功的子串

②成功就返回一个匹配对象，否则返回None

我们把上面的代码稍加修改：

python 复制代码

import re

def matchtwo(pattern , string) :
    x = re.search(pattern , string)
    if x != None :
        print(x.group())    #group()是返回匹配到的字符串
    else :
        print(None)

matchtwo("scy" , "scymimimi")  #符合要求

matchtwo("scy" , "mimiscymimi")    #只要能在后面的string中找到符合规则的即可

matchtwo(".{3}scy" , "miscyabdc")  #要求scy的左边必须包含三个字符，但是string中只有两个，虽然能找到scy这个子串，但是不符合其他的条件

结果：

因为这是在整个字符串中找到符合要求的子串，如果我们的string十分的长，我们可以添加一个函数来使得查找更方便：x.span()

润色后的代码（只包含函数部分）：

python 复制代码

def matchtwo(pattern , string) :
    x = re.search(pattern , string)
    if x != None :
        print(x.group() , x.span())    #group()是返回匹配到的字符串   x.span()是输出其子串的起止位置
    else :
        print(None)

结果：

4、findall()函数

在前面两个函数中，无论是哪一个函数，都是只找了第一个符合目标的子串，就返回了结果，如果我们想要找到全部符合要求的子串，就可以使用findall()函数：

re.findall()函数的格式：

re.findall(pattern , string , flags = 0)

对其目标字符串string中的所有和模式匹配的子串，不重叠的放入一个列表，一个子串都找不到就返回空列表\[\]

python 复制代码

import re

def findall(pattern , string) :
    x = re.findall(pattern , string)
    print(x)

findall("scy" , "abcd")

findall("scy" , "scy")

findall("scy" , "abcscy")

findall("scy" , "abcscydefscy")

findall("scy.{2}scy" , "scyascyscyabscybbdkkjscy8yscy")

5、re.finditer()函数

re.finditer()函数的格式：

re.finditer(pattern , string , flags = 0)

查找字符串中每个符合匹配对象的子串（不重叠），每个子串对应一个匹配对象，返回匹配对象的序列（可调用迭代器）

（迭代器：迭代器是一个根据具体参数来进行抽象操作的行为，比如我们我一篮子水果，我们想把每个水果拿出来检查以下，而迭代器就相当于水果分发器，把水果取出来，交给你）

例子：

python 复制代码

import re

a = "scy.{2}scy"

b = "scyascyscyabscybbdkkjscy8yscy"

for i in re.finditer(a , b) :
    print(i.group() , i.span())

输出：

（如果发现没有符合要求的子串，就无输出）

6、迭代器

关于迭代器，迭代器是没有group和span函数的，所以我们如果直接把finditer函数返回的东西和group函数结合使用是会报错的！

下面是一个错误的例子：

python 复制代码

import re

a = "scy.{2}scy"

b = "scyascyscyabscybbdkkjscy8yscy"

c = re.finditer(a , b)
print(c.group() , c.span())

这个代码会报错，因为代码中的c，是指finditer函数返回的迭代器本身，无法使用group函数，而上面正确的例子中那个i，因为在循环之中，每次循环i都会指向迭代器内一个新的且符合要求的匹配对象，对象中包含子串的一些信息！

我们上面那个正确的例子稍加修改：

python 复制代码

import re

a = "scy.{2}scy"

b = "scyascyscyabscybbdkkjscy8yscy"

for i in re.finditer(a , b) :
     print(i)

结果：

这个代码就是生成迭代器中每个符合要求的匹配对象，然后里面包含子串及相关信息

这些符合要求的匹配对象的集合，把他放到一个容器中，就是迭代器！

7、re.sub()函数

re.sub()函数用于把目标子串替换成我们所要替换的内容：

基本格式：

re.sub（模式串，替换串，母串）

例子：

python 复制代码

import re

str = "adhba8bkwjciehwajbjhsduagbshuchaobcsdjk"
a = re.sub("a.b" , "00000" , str)
print(a)

输出：

四、边界符号

边界符号用于指定字符的位置

我们下面会介绍几个边界符号：

|------|----------------------------|
| 边界符号 | 作用 |
| \A | 表示字符串的左边界，及要求从此处往左不能有任何字符 |
| \Z | 表示字符串的右边界，及要求从此处往右不能有任何字符 |
| ^ | 与\A同，但多行匹配下还可以表示一行文字的左边界 |
| $ | 与\Z同，但多行匹配下还可以表示一行文字的右边界 |
| \b | 表示此处是单词的左边界或右边界，即不可是单词字符 |
| \B | 表示此处不能是单词的左边界或右边界，即必须是单词字符 |

边界字符和上面那些范围符号一样，都只是一个或两个单独的字符不是和\n一样是一个字符！

五、分组

分组是正则表达式中很重要的一个概念，我们在Python的正则表达式中会用()来表达，一个括号的表达式是一个分组，多个分组按左括号，从左到右的顺序从1开始编号

例子：

python 复制代码

import re

zs = "(((abc*)d)e)"
str = "abcdefgh"
a = re.match(zs , str)
print(a.group())
print(a.group(0))    #group(0)等价于group()
print(a.group(1))
print(a.group(2))
print(a.group(3))
print(a.groups())

输出：

我们可以在分组的右面通过分组的编号来引用该分组匹配的字符串：

python 复制代码

import re

zs = r"(((abc*)d)e)\3"
str = "abcdeabccccfgh"
a = re.match(zs , str)
print(a.group())

这里的\3引用的就是（abc*），而（abc*）在前面得到是abc，所以\3就是abc

结果：

分组作为一个整体，后面可以跟量词

例子：

python 复制代码

import re

zs = r"(((abc*)+d)e)"
str = "abcabcabcabcdecfgh"
a = re.match(zs , str)
print(a.group())

输出：

（上述这些代码如果没有遇到能匹配的子串，就会报错，建议放到try里面）

以上就是Python正则表达式（一）的全部内容:)