正则表达式中 “$” 并不是表示 “字符串结束

作者:Seth Larson

译者:豌豆花下猫@Python猫

英文:[Regex character "" doesn't mean "end-of-string"](https://sethmlarson.dev/regex--matches-end-of-string-or-newline)

转载请保留作者及译者信息

这篇文章写一写我最近在用 Python 的正则表达式模块(re)开发 CPython 的 SBOM 工具时发现的一个令人惊讶的行为。

如果用过正则表达式,你可能知道 ^ 表示 "字符串开始",并相应地将 $ 视为 "字符串结束"。因此认为, cat$ 模式会匹配字符串 "lolcat" ,但不会匹配 "internet cat video"

^ 的行为让我认为 $ 也是类似的,但这并不一定成立,而且这种行为取决于不同编程语言及其写法。

特别是对于 Python 来说,如果禁用了多行模式(这是默认设置),那么,$ 字符不仅可以匹配字符串的末尾,还可以匹配字符串末尾的换行符。

所以,如果你试图匹配一个末尾没有换行符的字符串,在 Python 中使用 $ 是做不到的!我本以为禁用多行模式后,就不会有这种匹配换行符的行为,但事实恰恰相反。

下一个合乎逻辑的问题是,如何在 Python 中匹配一个末尾不含换行符的字符串?

在对 Python其它正则表达式语法进行多番研究后,我还发现了 \z\Z 可以用于匹配 "字符串结束" 字符。

在 Python 中,可以用 re.MULTILINE 来启用多行模式,文档的描述如下:

当指定 re.MULTILINE 时,模式字符 '$' 会匹配字符串末尾以及每一行末尾(包含换行符)。默认情况下,'$' 只匹配字符串末尾以及字符串末尾的换行符之前(如果有的话)。

让我们看看这些特性在不同平台上是什么表现:

模式匹配 "cat\n"? "cat$" 多行模式 "cat$" 无多行模式 "cat\z" "cat\Z"
PHP
ECMAScript ⚠️ ⚠️
Python ⚠️
Golang ⚠️
Java 8
.NET 7.0
Rust ⚠️
  • ✅: 模式与字符串 "cat\n" 匹配
  • ❌: 模式与字符串 "cat\n" 不匹配
  • ⚠️: 模式无效或不支持该用法

综合上述表格,如果要匹配换行符,那么在所有语言中使用多行模式的 $ ,都能匹配成功;但如果不想匹配换行符,事情就会变得复杂起来。

如果不想匹配换行符,在除了 Python 和 ECMAScript 外的其它语言中,你可以使用 \z。而在 Python 中,你需要使用 \Z ,在 ECMAScript 中使用非多行模式的 $

今天这些关于正则表达式的知识,你学会了么?

注意:上述数据表的信息收集自 regex101.com,我没有用实际的编程环境进行测试。


以上是今天的分享,最后推荐一下我的《Python潮流周刊》专栏。这是一个专为国内 Python 开发者量身打造的资讯平台,为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。

https://xiaobot.net/p/python_weekly?refer=2fc438e2-33fe-44bd-aa2f-ae7d8e782dea

相关推荐
海南java第二人几秒前
SpringBoot核心注解@SpringBootApplication深度解析:启动类的秘密
java·spring boot·后端
数据大魔方5 分钟前
【期货量化入门】股指期货量化入门:IF/IC/IH交易全攻略(TqSdk完整教程)
开发语言·python
百度地图汽车版12 分钟前
【智图译站】基于异步时空图卷积网络的不规则交通预测
前端·后端
sunfove14 分钟前
空间几何的基石:直角、柱、球坐标系的原理与转换详解
人工智能·python·机器学习
<-->15 分钟前
pytorch vs ray
人工智能·pytorch·python
qq_124987075315 分钟前
基于Spring Boot的“味蕾探索”线上零食购物平台的设计与实现(源码+论文+部署+安装)
java·前端·数据库·spring boot·后端·小程序
知乎的哥廷根数学学派16 分钟前
基于多尺度特征提取和注意力自适应动态路由胶囊网络的工业轴承故障诊断算法(Pytorch)
开发语言·网络·人工智能·pytorch·python·算法·机器学习
七夜zippoe22 分钟前
缓存策略:从本地到分布式架构设计与Python实战
分布式·python·缓存·lfu·lru
曲幽23 分钟前
重构FastAPI生产部署:用异步网关与无服务器计算应对高并发
python·serverless·fastapi·web·async·httpx·await·asyncio
开心就好202527 分钟前
Python爬虫基础:HTTP和HTTPS协议的请求与响应过程详解
后端