精通Python中的正则表达式

源码分享

https://docs.qq.com/sheet/DUHNQdlRUVUp5Vll2?tab=BB08J2

正则表达式是一种强大的文本处理工具,广泛应用于字符串搜索、替换、验证等多种场景。Python通过内置的​​re​​模块提供了对正则表达式的支持。在爬虫开发中,能够熟练地使用正则表达式对数据进行提取和处理至关重要。本博客文章将深入探究Python中的正则表达式,并通过具体的代码案例来展示其用法。

什么是正则表达式?

正则表达式(Regular Expression),是一种文本模式,包括普通字符(例如,字母a到z)和特殊字符(称为"元字符")。它通过一个搜索模式定义了搜索或操作字符串的方式。

Python中的正则表达式

在Python中使用正则表达式之前,需要引入​​re​​模块:

复制代码
import re

搜索文本

​re.search​​函数可以在字符串中搜索匹配正则表达式的第一个位置。

复制代码
pattern = r"Python"
text = "Learning Python with Python tips"
match = re.search(pattern, text)

if match:
    print("Match found at index:", match.start())

提取匹配

​re.findall​​函数可以找到字符串中所有匹配正则表达式的部分,并返回一个列表。

复制代码
emails = "contact us: [email protected], [email protected]"
matches = re.findall(r'[\w\.-]+@[\w\.-]+', emails)

for email in matches:
    print(email)

替换文本

​re.sub​​函数可以替换文本中的匹配项。

复制代码
text = "Use of Python 2 has been deprecated, use Python 3 instead."
new_text = re.sub(r"Python 2", "Python 3", text)

print(new_text)

分割文本

​re.split​​函数可以用正则表达式来分割字符串。

复制代码
text = "The rain in Spain"
words = re.split(r'\W+', text)

for word in words:
    print(word)

正则表达式模式

在正则表达式中,可以使用多种模式,例如:

  • ​\d​ 匹配任意数字
  • ​\w​ 匹配任意字母数字字符
  • ​\s​ 匹配任意空白字符
  • ​.​ 匹配任意单个字符,除了换行符
  • ​*​ 匹配0个或多个表达式
  • ​+​ 匹配1个或多个表达式
  • ​?​ 匹配0个或1个表达式
  • ​{n}​ 匹配n次
  • ​{n,}​ 至少匹配n次
  • ​{,m}​ 最多匹配m次
  • ​{n,m}​ 至少匹配n次,最多匹配m次

分组提取

分组是正则表达式中一个强大的特性,它允许你提取信息的一部分。

复制代码
text = "John: +1-555-1234"
match = re.search(r'(\w+): \+(\d+)-(\d+)-(\d+)', text)

if match:
    name, country_code, area_code, number = match.groups()
    print(f"Name: {name}, Country Code: {country_code}, Area Code: {area_code}, Number: {number}")

非贪婪匹配

默认情况下,​​*​​和​​+​​操作符是"贪婪"的,会尽可能多的匹配文字。非贪婪版本的这些操作符是​​*?​​和​​+?​​,它们尽可能少地匹配文字。

复制代码
html = "<title>Python or Ruby</title>"
match = re.search(r'<.*?>', html)

if match:
    print(match.group())

结语

正则表达式是一个非常强大的工具,在处理字符串数据时几乎是不可或缺的。在Python中,​​re​​模块提供了一套完整的正则表达式功能,可以帮助开发者执行复杂的文本分析和数据提取任务。通过本文的介绍和案例,希望你能够开始利用正则表达式来增强你的Python爬虫项目。记得,正则表达式虽然强大,但也可能复杂难懂,使用时应确保充分测试以避免错误。

相关推荐
·云扬·几秒前
【PmHub后端篇】PmHub 中缓存与数据库一致性的实现方案及分析
数据库·缓存
卡戎-caryon1 分钟前
【C++】15.并发支持库
java·linux·开发语言·c++·多线程
kaixiang3004 分钟前
sqli-labs靶场23-28a关(过滤)
数据库·sql
不剪发的Tony老师27 分钟前
数据库行业竞争加剧,MySQL 9.3.0 企业版开始支持个人下载
数据库·mysql
weixin_4342556130 分钟前
命令行快速上传文件到SFTP服务器(附参考示例)
linux·运维·服务器
麟城Lincoln1 小时前
【Linux笔记】nfs网络文件系统与autofs(nfsdata、autofs、autofs.conf、auto.master)
linux·网络·笔记·nfs·autofs
淡定是个好东西1 小时前
springboot连接高斯数据库(GaussDB)踩坑指南
数据库·gaussdb
追风赶月、1 小时前
【Redis】哨兵(Sentinel)机制
数据库·redis·sentinel
***似水流年***1 小时前
Linux任务管理与守护进程
linux·运维·服务器
悟能不能悟2 小时前
mysql的not exists走索引吗
数据库·mysql