玩转Python爬虫中的正则表达式:从原理到实战!

🔸 正则表达式原理概述

正则表达式(Regular Expression,简称RE)是一种用于匹配文本的强大工具。它通过一些特殊字符(称为元字符)和模式,能够在文本中进行搜索、替换和解析操作。Python中的re模块提供了对正则表达式的支持,使我们可以方便地进行文本处理。


🔸 通用符号学习:各种元字符

让我们先来学习一些常见的元字符及其含义:

  • . :匹配除换行符外的任意字符
  • ^ :匹配字符串的开头
  • $ :匹配字符串的结尾
  • * :匹配前面的字符零次或多次
  • + :匹配前面的字符一次或多次
  • ? :匹配前面的字符零次或一次
  • {n} :匹配前面的字符恰好n次
  • {n,} :匹配前面的字符至少n次
  • {n,m} :匹配前面的字符至少n次,但不超过m次
  • [] :匹配方括号内的任意字符
  • | :匹配左右任意一个表达式
  • () :标记一个子表达式,用于分组和提取

🔹 常见的转义字符:

  • \d :匹配任何十进制数字,相当于[0-9]
  • \D :匹配任何非数字字符,相当于[^0-9]
  • \w :匹配任何字母数字字符及下划线,相当于[A-Za-z0-9_]
  • \W :匹配任何非字母数字字符及下划线,相当于[^A-Za-z0-9_]
  • \s :匹配任何空白字符,相当于[ \t\n\r\f\v]
  • \S :匹配任何非空白字符,相当于[^ \t\n\r\f\v]

🔸 分组和通用匹配

在正则表达式中,使用圆括号()可以对模式进行分组,这样我们可以提取匹配的子字符串。

python 复制代码
import re

pattern = r"(\d{4})-(\d{2})-(\d{2})"
text = "2024-07-31"
match = re.match(pattern, text)
if match:
    year, month, day = match.groups()
    print(f"Year: {year}, Month: {month}, Day: {day}")

🔹 在这个示例中,模式 (\d{4})-(\d{2})-(\d{2}) 匹配日期格式 YYYY-MM-DD,并将年、月、日分别分组。


🔸 贪婪和非贪婪模式

正则表达式中的*+?等量词默认是贪婪的,即尽可能多地匹配字符。我们可以通过在量词后加上?来将其变为非贪婪模式,即尽可能少地匹配字符。

python 复制代码
import re

text = "<div>content</div><div>more content</div>"
pattern_greedy = r"<div>.*</div>"
pattern_non_greedy = r"<div>.*?</div>"

# 贪婪模式
greedy_match = re.findall(pattern_greedy, text)
print(f"Greedy match: {greedy_match}")

# 非贪婪模式
non_greedy_match = re.findall(pattern_non_greedy, text)
print(f"Non-greedy match: {non_greedy_match}")

🔹 在这个示例中,贪婪模式匹配了整个字符串,而非贪婪模式则分别匹配了每个<div>标签中的内容。


🔸 findall、match和search方法

Python的re模块提供了多种方法来进行正则表达式匹配:

  1. re.findall(pattern, string):返回所有与模式匹配的子串列表。
python 复制代码
import re

text = "There are 3 cats, 5 dogs, and 7 birds."
pattern = r"\d+"
matches = re.findall(pattern, text)
print(f"Numbers found: {matches}")
  1. re.match(pattern, string):从字符串的起始位置开始匹配模式,成功则返回Match对象,否则返回None
python 复制代码
import re

text = "2024-07-31"
pattern = r"\d{4}-\d{2}-\d{2}"
match = re.match(pattern, text)
if match:
    print(f"Matched: {match.group()}")
  1. re.search(pattern, string):搜索整个字符串,找到第一个与模式匹配的子串,成功则返回Match对象,否则返回None
python 复制代码
import re

text = "Contact us at support@example.com"
pattern = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"
match = re.search(pattern, text)
if match:
    print(f"Email found: {match.group()}")

🔸 总结

🔹 通过这次学习,我们掌握了正则表达式的基本原理、常用元字符、分组与匹配、贪婪与非贪婪模式,以及re模块中的常用方法。正则表达式在爬虫中非常实用,可以帮助我们高效地提取和处理文本数据。希望大家能够熟练掌握这些技巧,在实际项目中灵活运用!

相关推荐
摘星|几秒前
正则匹配与爬虫爬取图片路径综合练习
爬虫
喵手11 分钟前
Python爬虫实战:京东/淘宝搜索多页爬虫实战 - 从反爬对抗到数据入库的完整工程化方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·京东淘宝页面数据采集·反爬对抗到数据入库·采集结果csv导出
B站_计算机毕业设计之家27 分钟前
猫眼电影数据可视化与智能分析平台 | Python Flask框架 Echarts 推荐算法 爬虫 大数据 毕业设计源码
python·机器学习·信息可视化·flask·毕业设计·echarts·推荐算法
PPPPPaPeR.31 分钟前
光学算法实战:深度解析镜片厚度对前后表面折射/反射的影响(纯Python实现)
开发语言·python·数码相机·算法
JaydenAI35 分钟前
[拆解LangChain执行引擎] ManagedValue——一种特殊的只读虚拟通道
python·langchain
骇城迷影39 分钟前
Makemore 核心面试题大汇总
人工智能·pytorch·python·深度学习·线性回归
长安牧笛42 分钟前
反传统学习APP,摒弃固定课程顺序,根据用户做题正确性,学习速度,动态调整课程难度,比如某知识点学不会,自动推荐基础讲解和练习题,学习后再进阶,不搞一刀切。
python·编程语言
码界筑梦坊1 小时前
330-基于Python的社交媒体舆情监控系统
python·mysql·信息可视化·数据分析·django·毕业设计·echarts
森焱森1 小时前
详解 Spring Boot、Flask、Nginx、Redis、MySQL 的关系与协作
spring boot·redis·python·nginx·flask