正则表达式简记

正则表达式简记

一、查找开头子串与结尾子串

正则表达式中以^字符表示待查找子串位于字符串开头位置,以$字符表示待查找子串位于字符串结尾位置,示例代码如下:

python 复制代码
import re

s1 = "100_string_1"
pattern01 = r'^\d+'#查找以一位及以上数字开头的子串
pattern02 = r'\d+$'#查找以一位及以上数字结尾的子串
match01 = re.search(pattern01, s1)
sub_str01 = match01.group()#输出如下
'100'
start01 = match01.start()#输出如下
0
end01 = match01.end()#输出如下
3

match02 = re.search(pattern02, s1)
sub_str02 = match02.group()#输出如下
'1'
start02 = match02.start()#输出如下
11
end02 = match02.end()#输出如下
12

正则表达式以[^]表示匹配不包含在方括号内的字符,注意不要发生混淆。

二、分组匹配替换字符串

当查找的子串模式由多个模式组成,而想要对其中的某个模式子串进行局部替换或对模式子串进行重新排列,就需要进行分组匹配替换,示例代码如下:

python 复制代码
import re

s1 = "100_string_1"
pattern01 = r'^(\d+)_([a-z]+)_(\d+)'
s2 = re.sub(pattern01, r'\2_\1_\3', s1)#重新排列,输出如下
'string_100_1'

s3 = re.sub(pattern01, r'\1_\2_a', s1)#对第三个模式子串进行替换,输出如下
'100_string_a'

三、查找嵌套字符串

使用正则表达式查找字符串时,会尽可能多地查找符合条件的字符串,即使用贪婪模式进行匹配,在这种模式背景下如果待查找的子串内部包含子串的部分特征模式,就无法单纯地通过正则表达式进行查找。

例如在html文件中查找一个div标签,目标div标签以< div class='class01'>开始,以< /div>结束,但其内部可能嵌套着其他div标签,实现查找的示例代码如下:

python 复制代码
import re

def search_position_of_nested_DivElement(html_txt):
    dest_substr = '<div class="class01">'
    dest_substr_startIndex = html_txt.find(dest_substr)
    dest_substr_endIndex = -1
    if dest_substr_startIndex > -1:
        pos = dest_substr_startIndex + len(dest_substr)
        pattern_startDiv = re.compile(r'<div[^<>]*>')
        pattern_endDiv = re.compile(r'</div>')
        startDiv_index = 0
        endDiv_index = 0
        startDiv_match = None
        endDiv_match = None
        while True:
            startDiv_match = pattern_startDiv.search(html_txt, pos)
            endDiv_match = pattern_endDiv.search(html_txt, pos)
            if not startDiv_match:
                if not endDiv_match:
                    break
                else:
                    dest_substr_endIndex = endDiv_match.end()
                    break
            
            if not endDiv_match:
                break
            
            startDiv_index = startDiv_match.start()
            endDiv_index = endDiv_match.start()
            if startDiv_index < endDiv_index:
                pos = endDiv_match.end()
            else:
                dest_substr_endIndex = endDiv_match.end()
                break
        
        if dest_substr_endIndex > -1:
            return (True, dest_substr_startIndex, dest_substr_endIndex)
        else:
            return (True, -1, -1)
    else:
        return (False, -1, -1)

上述代码的实现原理是逐一搜索排除目标div包含的其他div标签,最终找到目标div标签的结尾标识,而后返回目标的开始和结尾位置。

相关推荐
AIAdvocate19 分钟前
Pandas_数据结构详解
数据结构·python·pandas
小言从不摸鱼21 分钟前
【AI大模型】ChatGPT模型原理介绍(下)
人工智能·python·深度学习·机器学习·自然语言处理·chatgpt
FreakStudio2 小时前
全网最适合入门的面向对象编程教程:50 Python函数方法与接口-接口和抽象基类
python·嵌入式·面向对象·电子diy
redcocal4 小时前
地平线秋招
python·嵌入式硬件·算法·fpga开发·求职招聘
artificiali4 小时前
Anaconda配置pytorch的基本操作
人工智能·pytorch·python
RaidenQ4 小时前
2024.9.13 Python与图像处理新国大EE5731课程大作业,索贝尔算子计算边缘,高斯核模糊边缘,Haar小波计算边缘
图像处理·python·算法·课程设计
花生了什么树~.5 小时前
python基础知识(六)--字典遍历、公共运算符、公共方法、函数、变量分类、参数分类、拆包、引用
开发语言·python
Trouvaille ~5 小时前
【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧
图像处理·python·机器学习·numpy·信号处理·时间序列分析·科学计算
爆更小小刘5 小时前
Python基础语法(3)下
开发语言·python
哪 吒5 小时前
华为OD机试 - 第 K 个字母在原来字符串的索引(Python/JS/C/C++ 2024 E卷 100分)
javascript·python·华为od