精通Python中的正则表达式

源码分享

https://docs.qq.com/sheet/DUHNQdlRUVUp5Vll2?tab=BB08J2

正则表达式是一种强大的文本处理工具,广泛应用于字符串搜索、替换、验证等多种场景。Python通过内置的​​re​​模块提供了对正则表达式的支持。在爬虫开发中,能够熟练地使用正则表达式对数据进行提取和处理至关重要。本博客文章将深入探究Python中的正则表达式,并通过具体的代码案例来展示其用法。

什么是正则表达式?

正则表达式(Regular Expression),是一种文本模式,包括普通字符(例如,字母a到z)和特殊字符(称为"元字符")。它通过一个搜索模式定义了搜索或操作字符串的方式。

Python中的正则表达式

在Python中使用正则表达式之前,需要引入​​re​​模块:

复制代码
import re

搜索文本

​re.search​​函数可以在字符串中搜索匹配正则表达式的第一个位置。

复制代码
pattern = r"Python"
text = "Learning Python with Python tips"
match = re.search(pattern, text)

if match:
    print("Match found at index:", match.start())

提取匹配

​re.findall​​函数可以找到字符串中所有匹配正则表达式的部分,并返回一个列表。

复制代码
emails = "contact us: [email protected], [email protected]"
matches = re.findall(r'[\w\.-]+@[\w\.-]+', emails)

for email in matches:
    print(email)

替换文本

​re.sub​​函数可以替换文本中的匹配项。

复制代码
text = "Use of Python 2 has been deprecated, use Python 3 instead."
new_text = re.sub(r"Python 2", "Python 3", text)

print(new_text)

分割文本

​re.split​​函数可以用正则表达式来分割字符串。

复制代码
text = "The rain in Spain"
words = re.split(r'\W+', text)

for word in words:
    print(word)

正则表达式模式

在正则表达式中,可以使用多种模式,例如:

  • ​\d​ 匹配任意数字
  • ​\w​ 匹配任意字母数字字符
  • ​\s​ 匹配任意空白字符
  • ​.​ 匹配任意单个字符,除了换行符
  • ​*​ 匹配0个或多个表达式
  • ​+​ 匹配1个或多个表达式
  • ​?​ 匹配0个或1个表达式
  • ​{n}​ 匹配n次
  • ​{n,}​ 至少匹配n次
  • ​{,m}​ 最多匹配m次
  • ​{n,m}​ 至少匹配n次,最多匹配m次

分组提取

分组是正则表达式中一个强大的特性,它允许你提取信息的一部分。

复制代码
text = "John: +1-555-1234"
match = re.search(r'(\w+): \+(\d+)-(\d+)-(\d+)', text)

if match:
    name, country_code, area_code, number = match.groups()
    print(f"Name: {name}, Country Code: {country_code}, Area Code: {area_code}, Number: {number}")

非贪婪匹配

默认情况下,​​*​​和​​+​​操作符是"贪婪"的,会尽可能多的匹配文字。非贪婪版本的这些操作符是​​*?​​和​​+?​​,它们尽可能少地匹配文字。

复制代码
html = "<title>Python or Ruby</title>"
match = re.search(r'<.*?>', html)

if match:
    print(match.group())

结语

正则表达式是一个非常强大的工具,在处理字符串数据时几乎是不可或缺的。在Python中,​​re​​模块提供了一套完整的正则表达式功能,可以帮助开发者执行复杂的文本分析和数据提取任务。通过本文的介绍和案例,希望你能够开始利用正则表达式来增强你的Python爬虫项目。记得,正则表达式虽然强大,但也可能复杂难懂,使用时应确保充分测试以避免错误。

相关推荐
杰哥技术分享6 分钟前
在 CentOS 上安装 Docker 和 Docker Compose 并配置使用国内镜像源
linux·docker·centos
知更鸟呆呆11 分钟前
【Linux操作系统】基础开发工具(yum、vim、gcc/g++)
linux·运维·vim
xiangyong5812 分钟前
ubuntu系统文件误删(/lib/x86_64-linux-gnu/libc.so.6)修复方案 [成功解决]
linux·ubuntu·gnu
Channing Lewis1 小时前
sql server如何创建表导入excel的数据
数据库·oracle·excel
秃头摸鱼侠1 小时前
MySQL安装与配置
数据库·mysql·adb
UGOTNOSHOT1 小时前
每日八股文6.3
数据库·sql
t198751281 小时前
Linux 上的 Tomcat 端口占用排查
linux·tomcat·firefox
行云流水行云流水1 小时前
数据库、数据仓库、数据中台、数据湖相关概念
数据库·数据仓库
John Song1 小时前
Redis 集群批量删除key报错 CROSSSLOT Keys in request don‘t hash to the same slot
数据库·redis·哈希算法
小狗爱吃黄桃罐头2 小时前
正点原子[第三期]Arm(iMX6U)Linux移植学习笔记-12.1 Linux内核启动流程简介
linux·arm开发·学习