python入门系列十七(正则表达式)

1.引言

针对文本处理任务,正则表达式是一项很有用的能力。比如下面这些场景:

  • 输入数据校验:保障数据符合格式要求(Email,电话号码)
  • 数据提取:提取模式化数据(电话号码,ID,URL)
  • 文本处理:替换,清洗,格式化
  • 结构化文本解析:日志,配置文件
  • 安全防护:敏感信息检查,攻击特征识别

等等。这篇文章,我们来看正则表达式的方方面面。

2.正则表达式

2.1.基础语法

2.1.1.元字符

正则表达式的本质,是通过一系列特殊字符构建匹配模式,这些特殊字符分类有:定位符,通配符,量词符,逻辑符

shell 复制代码
- 定位符
^:匹配字符串开始
$:匹配字符串结尾
\b:匹配单词边界

^:匹配字符串开始示例

$:匹配字符串结尾示例

\b:匹配单词边界示例

shell 复制代码
- 通配符
.:匹配除换行符以外的任意单个字符
\d:匹配数字
\w:匹配单词字符(字母,数字,下划线)
\s:匹配空白字符(空格,制表符,换行)

.:匹配除换行符以外的任意单个字符

\d:匹配数字

\w:匹配单词字符(字母,数字,下划线)

\s:匹配空白字符(空格,制表符,换行)

shell 复制代码
- 量词符
*:0次或多次
+:一次或多次
?:0次或一次
{n}:精确n次
{n,}:至少n次
{n,m}:n到m次

*:0次或多次

+:一次或多次

?:0次或一次

{n}:精确n次

{n,}:至少n次

{n,m}:n到m次

shell 复制代码
- 逻辑符
|:或运算
[...]:字符集合
[^...]:否定字符集合

|:或运算

[...]:字符集合

\^...\]:否定字符集合 ![image.png](https://oss.xyyzone.com/jishuzhan/article/1911210566816956418/8eec1f14503ec6d13cd0896b61f947ca.webp) #### 2.1.2.分组 在文本提取场景中,可以通过"()"创建分组方式提取目标数据: ```shell ():创建捕获分组 (?:):非捕获组 (?P):命名分组 ``` **():创建捕获分组** ![image.png](https://oss.xyyzone.com/jishuzhan/article/1911210566816956418/9a5e51d4e329d0ac0b521873062f666c.webp) **(?:):非捕获组** ![image.png](https://oss.xyyzone.com/jishuzhan/article/1911210566816956418/4cff462eda65787726b751bd2b870883.webp) **(?P\]+>', '', text) print("移除html标签结果:",text) # 标准化日期格式 2023-08-15 text = re.sub(r'(\d{4})/(\d{2})/(\d{2})', r'\1-\2-\3', text) print("替换日期格式结果:",text) # 删除重复空格 text = re.sub(r'\s+', ' ', text) print("删除重复空格结果:",text) return text.strip() # 调用函数进行文本清洗 cleaned_text = clean_text(text) ``` ![image.png](https://oss.xyyzone.com/jishuzhan/article/1911210566816956418/f337c359be02d395cf7a2f73357494b9.webp) #### 2.2.3.最佳实践 在使用python编程接口处理正则表达式中,有一些可参考的最佳实践原则: * 优先使用原始字符串(r'') * 复杂模式添加注释(re.VERBOSE) * 预编译多次使用正则表达式 * 非捕获分组减少内存消耗 * 安全审查用户输入的正则表达式 * 合理使用第三方库,比如regex功能更强大

相关推荐
OpenBayes贝式计算13 小时前
教程上新丨狂揽 41k stars,港大团队开源超轻量 AI 助手 nanobot,4000 行代码实现 OpenClaw 核心功能
人工智能·agent
人月神话-Lee13 小时前
【图像处理】饱和度——颜色的浓淡与灰度化
图像处理·人工智能·ios·ai编程·swift
猫猫的小茶馆14 小时前
【Python】函数与模块化编程
linux·开发语言·arm开发·驱动开发·python·stm32
大模型最新论文速读14 小时前
PreFT:只在 prefill 时使用 LoRA,推理速度翻倍效果不降
论文阅读·人工智能·深度学习·机器学习·自然语言处理
aneasystone本尊14 小时前
把小龙虾钉在菜单栏:OpenClaw 的 macOS app(二)
人工智能
是Dream呀14 小时前
让 AI 学会“动手”,得先有一个能动手的世界
人工智能·具身智能·衍象
小白|14 小时前
graph-autofusion:算子自动融合框架学习路线
人工智能·目标检测·目标跟踪
ZeroNews内网穿透14 小时前
面向 AI 协作的本地客户端能力:ZeroNews Agent Skills
大数据·人工智能·elasticsearch
阿里云大数据AI技术14 小时前
Hologres CLI与Skills担当Agent-Ready 基础设施,共建数仓智能新生态_
人工智能·阿里云·agent·hologres·skills
oo哦哦14 小时前
全域矩阵系统的技术架构拆解:从单点效率到链路闭环
人工智能·矩阵·架构