Python中的正则表达式

介绍

对于xpath和bs4不能匹配的数据,可以用正则表达式。正则表达式可以用于匹配复杂的数据,获取目标数据。

match方法

语法:match(正则表达式, 字符串)方法:

  1. 参数1是匹配的正则表达式书写规则;
  2. 参数2是从这个字符串中查询匹配;
  3. 从第一个字符开始匹配,参数1表达式第一个字符必须匹配
  4. 只匹配一次;
  5. 匹配成功,返回结果是正则对象;匹配失败,返回None;
  6. 使用 .group() 获取匹配内容;

实例代码:

python 复制代码
# 注意:需要导入re模块
import re

# 匹配到结果
s1 = 'python java css html'
res = re.match('python', s1).group()
print(res)

# 匹配不到结果
s1 = 'C++ python java css html'
# 因为匹配规则开头是python,但是匹配的字符不是以python开始的,所以无法匹配到结果
res = re.match('python', s1).group()
print(res)

search方法

语法:search(正则表达式, 字符串)方法:

  1. 参数1是匹配的正则表达式书写规则;
  2. 参数2是从这个字符串中查询匹配;
  3. 不重头开始开始匹配,参数1表达式不一定必须匹配
  4. 只匹配一次;
  5. 匹配成功,返回结果是正则对象;匹配失败,返回None;
  6. 使用 .group() 获取匹配内容;

总结:search和match不同的是,不重头开始匹配。

findall方法

  1. 参数1是匹配的正则表达式书写规则;
  2. 参数2是从这个字符串中查询匹配;
  3. 匹配多次,不限位置;
  4. 返回值是列表;
  5. 使用下标取值;

正则规则

. : 表示除了换行符之外,任意一个字符;

* : 表示前面的表达式出现一次或任意次;(尽可能多匹配)

? : 表示前面的表达式出现0次或1次;(尽可能少匹配)

\d : 表示匹配一个数字

\ : 转义字符

贪婪匹配和非贪婪匹配

贪婪匹配:.*

非贪婪匹配:.*?

示例代码:

python 复制代码
# 贪婪匹配:.*
s1 ='<div>几个字符</div><a href="https://www.baidu.com"></a><div>Python</div>'
res = re.search('<div>.*</div>', s1).group()
print(res)  # <div>几个字符</div><a href="https://www.baidu.com"></a><div>Python</div>

# 非贪婪匹配:.*?
s1 ='<div>几个字符</div><a href="https://www.baidu.com"></a><div>Python</div>'
res = re.search('<div>.*?</div>', s1).group()
print(res)  # <div>几个字符</div>

分组

分组,也叫二次提取。使用括号包裹正则表达式,第一个括号包裹的方法是 .group(1) ,以次类推。

示例代码:

python 复制代码
# 分组,二次提取数据
s1 ='<div>几个字符</div><a href="https://www.baidu.com"></a><div>Python</div>'
res = re.search('<div>(.*)</div><a href="(.*)">.*</a>', s1)
g1 = res.group(1)
g2 = res.group(2)
print(g1)  # 几个字符
print(g2)  # https://www.baidu.com

正则表达式默认不能匹配换行,如果需要匹配换行,可以在match方法或findall方法中添加第三个参数:re.S

python 复制代码
import re

re.match('正则表达式', '字符串', re.S)

re.findall('正则表达式', '字符串', re.S)
相关推荐
方也_arkling1 天前
【Java-Day08】static / final / 枚举
java·开发语言
风吹夏回1 天前
Python 全局异常处理:从“满屏 try-except”到优雅兜底
开发语言·python
Chengbei111 天前
一站式源码安全检测工具、云安全 / APP / 小程序源码敏感信息递归多层目录扫描AK、JWT、手机号、身份证等敏感信息
java·开发语言·安全·web安全·网络安全·系统安全·安全架构
llz_1121 天前
web-第一次课后作业
java·开发语言·idea
小熊Coding1 天前
Python爬取当当网二手图书项目实战!
开发语言·爬虫·python·beautifulsoup·requests·二手图书
秋91 天前
Java项目运行5天左右自动宕机:系统性定位与解决方案
java·开发语言·python
小江的记录本1 天前
【JVM虚拟机】垃圾回收GC:垃圾收集器:CMS:核心原理、回收流程、优缺点、废弃原因(附《思维导图》+《面试高频考点清单》)
java·jvm·后端·python·spring·面试·maven
xiaoshuaishuai81 天前
C# 内存管理与资源泄漏
开发语言·c#
lsx2024061 天前
SVN 检出操作
开发语言
田里的水稻1 天前
OE_ubuntu26.04与宿主机之间复制粘贴内容
人工智能·python·机器人