re正则入门

re模块是Python中的一个内置模块,用于支持正则表达式的操作。正则表达式是一种描述字符串模式的语法,它能够用来匹配、搜索和替换字符串。re模块提供了一系列函数,可以用来执行这些操作,如正则表达式的匹配、查找、替换等。通过re模块,可以更加灵活和高效地处理字符串。

re模块经常被用来处理,爬虫中遇到的网站解析后的字符串信息,非常重要和高效

一,re模块主要实现的三个功能:

1,匹配

re.search()

搜索整个字符串,找到第一个匹配的子串。

复制代码
result = re.search(r'abc','0abcababcabcd')
print(result,result.start(),result.end(),result.group())
# 匹配到第一个位置
# 返回match

re.match()

从开头开始匹配,搜索整个字符串,找到第一个匹配的字符串,匹配字符串的开始部分。

复制代码
# result=re.match(r'ab','ababcabcd')
# print(result)
# 从开头匹配,开头匹配不成功,就是None

re.fullmatch ()

尝试从字符串的开头到结尾完全匹配正则表达式,如果匹配成功则返回一个 Match 对象,否则返回 None

复制代码
# result=re.fullmatch(r'ab','ababcabcd')
# print(result)

re.findall()

返回匹配到的所有内容(字符串),返回列表

re.finditer()

返回一个迭代器,迭代器中的内容是一个个的match

#可以通过遍历,得到match中的具体内容(group)

复制代码
# result = re.findall(r'abc','Abcababcabcd',re.I)
# print(result)
# 返回匹配到的所有内容(字符串),返回列表

# result = re.finditer(r'abc','abcabaaabcdeababc')
# # print(result)
# for data in result:
#     print(data.group())
# 返回一个迭代器,迭代器中的内容是一个个的match
# 可以通过遍历,得到match中的具体内容(group)

2,替换

re.sub()

re.subn()

复制代码
# result = re.sub(r'abc','ghy','abcahabdabcdeabc',count = 1)
# print(result)
# 返回替换后的字符串,可以指定替换次数,默认匹配到的内容全替换


# result = re.subn(r'abc','ghy','abcahabdabcdeabc')
# print(result)
# 返回元组,第一个参数是替换后的字符串,第二个参数是替换的次数
# 替换次数可以自定义

3,分割

re.split()

复制代码
# result = re.split(r'a\wc','ababcahabcdabdeabc',maxsplit=2)
# print(result)
# 以匹配到的内容为'刀刃',切割
# 返回分割后的字符串列表
# 可以通过maxsplit 来指定要分割几次

二,特殊符号

1. wds.^$

\w 匹配数字字母下划线

\W 非 数字字母下划线

\d 仅数字

\D 非数字

\s 空 (制表符,换行符,空格)

\S 非空

. 所有

复制代码
 ^ : 以什么为开头
 $ :以什么为结尾
复制代码
# result = re.findall('\w','adaidh _+*-/')
# result = re.findall('\W','adaidh _+*-/')

# result = re.findall('\d','abc125 *-+/\t\n')
# result = re.findall('\D','abc125 *-+/\t\n')

# result = re.findall('\s',' a\t\n+-*/54')
# result = re.findall('\S',' a\t\n+-*/54')

# result = re.findall('.',' a\t\n+-*/54',re.S)



# result = re.findall(r'^ab','abcd\nabcdab',re.M)

# result = re.findall(r'ab$','abca564ab')

2.*+?

贪婪模式:尽可能匹配多个

* 代表有>=0个

+ 代表有>=1 个

? 代表有 1 个 或者 0个 (*和+的结合)

非贪婪:尽可能匹配少的个数

在贪婪模式后加上一个? 即转为非贪婪模式

复制代码
# result = re.findall('\d*','123ada')
# result = re.findall('\d*?','123ada')

# result = re.findall('\d+','123ada')
# result = re.findall('\d+?','123ada')

# result = re.findall(r'\d?','123456789')
# result = re.findall(r'\d??','123456789')

3.{ },( ),[ ]

复制代码
# {n}  匹配n个
#{n,m} 匹配n个或者m个,贪婪模式下匹配多的,非贪婪模式匹配少的
# result = re.findall(r'\d{2,4}?','123456987')

#[]

# result = re.findall(r'[123]','123456987')

# result = re.findall(r'[1-6]','123456987')

# 分组()
相关推荐
编程爱好者熊浪42 分钟前
两次连接池泄露的BUG
java·数据库
南宫乘风2 小时前
基于 Flask + APScheduler + MySQL 的自动报表系统设计
python·mysql·flask
TDengine (老段)2 小时前
TDengine 字符串函数 CHAR 用户手册
java·大数据·数据库·物联网·时序数据库·tdengine·涛思数据
qq7422349843 小时前
Python操作数据库之pyodbc
开发语言·数据库·python
姚远Oracle ACE3 小时前
Oracle 如何计算 AWR 报告中的 Sessions 数量
数据库·oracle
Dxy12393102163 小时前
MySQL的SUBSTRING函数详解与应用
数据库·mysql
码力引擎4 小时前
【零基础学MySQL】第十二章:DCL详解
数据库·mysql·1024程序员节
杨云龙UP4 小时前
【MySQL迁移】MySQL数据库迁移实战(利用mysqldump从Windows 5.7迁至Linux 8.0)
linux·运维·数据库·mysql·mssql
l1t4 小时前
利用DeepSeek辅助修改luadbi-duckdb读取DuckDB decimal数据类型
c语言·数据库·单元测试·lua·duckdb
安当加密4 小时前
Nacos配置安全治理:把数据库密码从YAML里请出去
数据库·安全