re正则入门

re模块是Python中的一个内置模块,用于支持正则表达式的操作。正则表达式是一种描述字符串模式的语法,它能够用来匹配、搜索和替换字符串。re模块提供了一系列函数,可以用来执行这些操作,如正则表达式的匹配、查找、替换等。通过re模块,可以更加灵活和高效地处理字符串。

re模块经常被用来处理,爬虫中遇到的网站解析后的字符串信息,非常重要和高效

一,re模块主要实现的三个功能:

1,匹配

re.search()

搜索整个字符串,找到第一个匹配的子串。

复制代码
result = re.search(r'abc','0abcababcabcd')
print(result,result.start(),result.end(),result.group())
# 匹配到第一个位置
# 返回match

re.match()

从开头开始匹配,搜索整个字符串,找到第一个匹配的字符串,匹配字符串的开始部分。

复制代码
# result=re.match(r'ab','ababcabcd')
# print(result)
# 从开头匹配,开头匹配不成功,就是None

re.fullmatch ()

尝试从字符串的开头到结尾完全匹配正则表达式,如果匹配成功则返回一个 Match 对象,否则返回 None

复制代码
# result=re.fullmatch(r'ab','ababcabcd')
# print(result)

re.findall()

返回匹配到的所有内容(字符串),返回列表

re.finditer()

返回一个迭代器,迭代器中的内容是一个个的match

#可以通过遍历,得到match中的具体内容(group)

复制代码
# result = re.findall(r'abc','Abcababcabcd',re.I)
# print(result)
# 返回匹配到的所有内容(字符串),返回列表

# result = re.finditer(r'abc','abcabaaabcdeababc')
# # print(result)
# for data in result:
#     print(data.group())
# 返回一个迭代器,迭代器中的内容是一个个的match
# 可以通过遍历,得到match中的具体内容(group)

2,替换

re.sub()

re.subn()

复制代码
# result = re.sub(r'abc','ghy','abcahabdabcdeabc',count = 1)
# print(result)
# 返回替换后的字符串,可以指定替换次数,默认匹配到的内容全替换


# result = re.subn(r'abc','ghy','abcahabdabcdeabc')
# print(result)
# 返回元组,第一个参数是替换后的字符串,第二个参数是替换的次数
# 替换次数可以自定义

3,分割

re.split()

复制代码
# result = re.split(r'a\wc','ababcahabcdabdeabc',maxsplit=2)
# print(result)
# 以匹配到的内容为'刀刃',切割
# 返回分割后的字符串列表
# 可以通过maxsplit 来指定要分割几次

二,特殊符号

1. wds.^$

\w 匹配数字字母下划线

\W 非 数字字母下划线

\d 仅数字

\D 非数字

\s 空 (制表符,换行符,空格)

\S 非空

. 所有

复制代码
 ^ : 以什么为开头
 $ :以什么为结尾
复制代码
# result = re.findall('\w','adaidh _+*-/')
# result = re.findall('\W','adaidh _+*-/')

# result = re.findall('\d','abc125 *-+/\t\n')
# result = re.findall('\D','abc125 *-+/\t\n')

# result = re.findall('\s',' a\t\n+-*/54')
# result = re.findall('\S',' a\t\n+-*/54')

# result = re.findall('.',' a\t\n+-*/54',re.S)



# result = re.findall(r'^ab','abcd\nabcdab',re.M)

# result = re.findall(r'ab$','abca564ab')

2.*+?

贪婪模式:尽可能匹配多个

* 代表有>=0个

+ 代表有>=1 个

? 代表有 1 个 或者 0个 (*和+的结合)

非贪婪:尽可能匹配少的个数

在贪婪模式后加上一个? 即转为非贪婪模式

复制代码
# result = re.findall('\d*','123ada')
# result = re.findall('\d*?','123ada')

# result = re.findall('\d+','123ada')
# result = re.findall('\d+?','123ada')

# result = re.findall(r'\d?','123456789')
# result = re.findall(r'\d??','123456789')

3.{ },( ),[ ]

复制代码
# {n}  匹配n个
#{n,m} 匹配n个或者m个,贪婪模式下匹配多的,非贪婪模式匹配少的
# result = re.findall(r'\d{2,4}?','123456987')

#[]

# result = re.findall(r'[123]','123456987')

# result = re.findall(r'[1-6]','123456987')

# 分组()
相关推荐
Goat恶霸詹姆斯9 小时前
mysql常用语句
数据库·mysql·oracle
大模型玩家七七9 小时前
梯度累积真的省显存吗?它换走的是什么成本
java·javascript·数据库·人工智能·深度学习
曾经的三心草9 小时前
redis-9-哨兵
数据库·redis·bootstrap
明哥说编程9 小时前
Dataverse自定义表查询优化:D365集成大数据量提速实战【索引配置】
数据库·查询优化·dataverse·dataverse自定义表·索引配置·d365集成·大数据量提速
xiaowu0809 小时前
C# 拆解 “显式接口实现 + 子类强类型扩展” 的设计思想
数据库·oracle
讯方洋哥10 小时前
HarmonyOS App开发——关系型数据库应用App开发
数据库·harmonyos
惊讶的猫10 小时前
Redis持久化介绍
数据库·redis·缓存
Apple_羊先森10 小时前
ORACLE数据库巡检SQL脚本--19、磁盘读次数最高的前5条SQL语句
数据库·sql·oracle
全栈前端老曹11 小时前
【MongoDB】Node.js 集成 —— Mongoose ORM、Schema 设计、Model 操作
前端·javascript·数据库·mongodb·node.js·nosql·全栈
神梦流11 小时前
ops-math 算子库的扩展能力:高精度与复数运算的硬件映射策略
服务器·数据库