Python--正则表达式

1. 日志打印与终端颜色控制

1.1 使用 loguru​ 打印日志

复制代码
from loguru import logger

logger.debug("调试信息")
logger.info("普通信息")
logger.warning("警告信息")
logger.error("错误信息")
logger.success("成功信息")

1.2 终端颜色控制(Colorama)

Colorama 库用于控制终端输出的颜色和样式。

  • 字体颜色:Fore.RED, Fore.GREEN
  • 背景颜色:Back.BLACK, Back.CYAN
  • 样式:Style.BRIGHT, Style.DIM

示例:

复制代码
from colorama import Fore, Back, Style

print(Fore.RED + "红色字体" + Style.RESET_ALL)
print(Back.GREEN + "绿色背景" + Style.RESET_ALL)
print(Style.BRIGHT + "高亮文本" + Style.RESET_ALL)

2. 正则表达式

2.1 基础语法与元字符

元字符 描述 示例
​.​ 匹配除换行符外的任意字符 ​a.c​ → "abc", "a1c"
​|​ 逻辑或 ​a|b​ → "a" 或 "b"
​\[\]​ 字符集匹配 aeiou​ → 匹配任意元音字母
\^ 字符集取反 \^0-9​ → 匹配非数字字符
​()​ 分组匹配 ​(ab)+​ → "ab", "abab"
​\​ 转义字符 ​\.​ → 匹配小数点 .​

2.2 预定义字符集

表达式 匹配内容 等价形式
​\d​ 数字 0-9
​\w​ 字母/数字/下划线 A-Za-z0-9_
​\s​ 空白字符 \\t\\n\\r\\f\\v
​\D​ 非数字 \^\\d
​\W​ 非单词字符 \^\\w
​\S​ 非空白字符 \^\\s

2.3 重复匹配

表达式 描述 示例
​{n}​ 重复n次 ​a{3}​ → "aaa"
​{m,n}​ 重复m到n次 ​a{2,4}​ → "aa", "aaa", "aaaa"
​?​ 0或1次 ​a?​ → "" 或 "a"
​+​ 至少1次 ​a+​ → "a", "aaa"
​*​ 0到多次 ​a*​ → "", "a", "aaaa"

2.4 贪婪与非贪婪模式

  • 贪婪模式:默认匹配尽可能长的字符串。

    • 示例:a.*b 匹配 "aabcb" 中的整个字符串。
  • 非贪婪模式:使用 ?​ 匹配尽可能短的字符串。

    • 示例:a.*?b 匹配 "aabcb" 中的 "aab" 和 "ab"。

2.5 常用正则表达式案例

  • 邮箱匹配:^\\w\\.-+@\\w\\.-+\.\w+$
  • IP地址匹配:^\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}$
  • 日期格式(YYYY-MM-DD):^\d{4}-\d{2}-\d{2}$

2.6 高级功能

分组与后向引用
  • 分组捕获:使用 ()​ 分组并提取匹配内容。

    复制代码
    import re
    pattern = r"(\d{4})-(\d{2})-(\d{2})"
    match = re.match(pattern, "2023-10-05")
    if match:
        year, month, day = match.groups()
        print(f"Year: {year}, Month: {month}, Day: {day}")  # Year: 2023, Month: 10, Day: 05
  • 后向引用:通过 \1​, \2​ 引用分组内容。

    复制代码
    # 匹配重复单词,如 "hello hello"
    pattern = r"(\b\w+\b)\s+\1"
    print(re.findall(pattern, "hello hello world"))  # ['hello']
零宽断言(Lookahead/Lookbehind)
  • 正向肯定预查 (?=...)​:匹配后面紧跟特定模式的位置。

    复制代码
    # 匹配后面跟着 "px" 的数字,如 "100px"
    pattern = r"\d+(?=px)"
    print(re.findall(pattern, "200px 300em 150px"))  # ['200', '150']
  • 负向否定预查 (?!...)​:匹配后面不跟特定模式的位置。

    复制代码
    # 匹配不以 "px" 结尾的数字,如 "200em"
    pattern = r"\d+(?!px)"
    print(re.findall(pattern, "200px 300em 150px"))  # ['300']
正则表达式修饰符
修饰符 描述 示例
​re.I​ 忽略大小写 ​re.findall(r"apple", "Apple", re.I)​ → 'Apple'
​re.M​ 多行模式 使 ^​ 和 $​ 匹配每行的开头和结尾
​re.S​ 让 .​ 匹配包括换行符在内的所有字符 ​re.findall(r"a.*b", "a\nb", re.S)​ → 'a\\nb'

相关推荐
AC赳赳老秦2 分钟前
OpenClaw+AWS 深度应用:自动生成 CloudFormation 模板、批量管理 S3 存储桶
java·python·面试·职场和发展·php·deepseek·openclaw
麦麦麦当劳大王6 分钟前
OpenClaw安装部署(Windows/Linux/MacOS)
linux·windows·macos
ylscode11 分钟前
Claude Fable 5遭多智能体越狱攻击:Anthropic最强AI安全防线被击穿,12万字符系统提示泄露
网络·人工智能·安全
萤萤七悬12 分钟前
【Python笔记】AI帮封装Airtest IOS-WDA touch操作时的factor坐标转换
笔记·python·ios
myenjoy_115 分钟前
采集链路诊断与可观测性——当数据不“对“的时候,你在第几层排查?
python
码界索隆20 分钟前
Python转Java系列:语法与类型系统
java·开发语言·python
sou_time21 分钟前
从 0 到 商用:AI Agent x SKILL x MCP 全栈实战教程:L3 商用篇:性能 / 成本 / 可观测性 / 安全 / 部署
人工智能·安全
X7x521 分钟前
重塑数字安全防线:深度解析P2DR安全模型的实战价值
网络安全·网络攻击模型·安全威胁分析·安全架构·p2dr模型
ch.ju22 分钟前
Java程序设计(第3版)第四章——编译中的错误:无法覆盖
java·开发语言
huangdong_25 分钟前
拼多多商品图片批量采集技术解析:webp格式转换与SKU图自动分类
windows