正则表达式(Regular Expression,简称 Regex)

一、5w2h(七问法)分析正则表达式

是的,5W2H 完全可以应用于研究 正则表达式 (Regular Expressions)。通过回答 5W2H 的七个问题,我们可以全面理解正则表达式的定义、用途、使用方法、适用场景等,帮助我们更好地学习和掌握它。

1. What(什么是正则表达式?)

  • 正则表达式是一种用于描述字符串模式的语法规则。它通过一些特殊的字符和符号来定义匹配文本的模式,广泛应用于文本搜索、替换、验证等操作中。正则表达式能够匹配符合特定规则的字符串。

例如:

  • \d:匹配任何数字字符。
  • ^abc:匹配以"abc"开头的字符串。
  • \w+:匹配一个或多个字母、数字或下划线。

2. Why(为什么要使用正则表达式?)

  • 正则表达式通过其简洁的语法提供了一种强大的工具,可以在文本中进行复杂的模式匹配,减少繁琐的文本处理代码,提升开发效率。
  • 用途
    • 验证输入:比如验证电子邮件地址、电话号码等格式。
    • 查找和替换:在文本中查找符合某个模式的字符串并替换。
    • 文本提取:从文本中提取符合特定模式的信息。

3. When(何时使用正则表达式?)

  • 当你需要处理或验证字符串的格式时,尤其是在文本搜索、数据清洗、日志分析等场景下,正则表达式非常有用。
  • 常见场景
    • 验证用户输入(如邮箱、日期格式等)。
    • 提取特定格式的数据(如从网页抓取邮箱地址、电话号码等)。
    • 文本搜索和替换(如在代码中查找函数定义或在文件中查找特定信息)。

4. Where(在哪里使用正则表达式?)

  • 正则表达式可以在许多编程语言和工具中使用,几乎所有现代编程语言都支持正则表达式(如 Java, Python, JavaScript, C# 等)。
  • 应用场景
    • 编程语言 :在 Python 中使用 re 模块,在 JavaScript 中使用 RegExp 对象,在 Java 中使用 Pattern 类等。
    • 文本编辑器:许多文本编辑器(如 VS Code、Sublime Text)支持正则表达式来进行查找和替换。
    • 命令行工具 :如 grep, sed, awk 等 Unix 工具支持正则表达式。

5. Who(谁使用正则表达式?)

  • 程序员:正则表达式是开发人员必备的工具,特别是涉及文本处理、数据清理、日志分析等任务时。
  • 测试人员:在自动化测试中,正则表达式可用于验证字符串的格式或从响应中提取信息。
  • 数据分析师:用于清洗和提取结构化或非结构化数据中的有用信息。

6. How(如何使用正则表达式?)

  • 正则表达式的语法通常包括常用的特殊字符和元字符,如:
    • .:匹配任意单个字符。
    • *:匹配前面的字符零次或多次。
    • +:匹配前面的字符一次或多次。
    • []:定义字符集,匹配其中的任意一个字符。
    • |:表示"或"操作,匹配左边或右边的表达式。
    • ():分组,用来定义子表达式或捕获匹配。
  • 使用方法
    • 在编程中,通常使用正则表达式的相关API进行匹配和操作。例如,在 Python 中:

      import re
      pattern = r'\d+' # 匹配一个或多个数字
      result = re.findall(pattern, 'There are 123 apples and 456 oranges.')
      print(result) # 输出:['123', '456']

7. How much(多少?)

  • 正则表达式本身是一个计算机程序语言的工具,它没有直接的"成本",但它的复杂度和匹配的文本量可能会影响性能。尤其是在大型文本处理时,正则表达式的效率和匹配速度可能会成为问题。
  • 性能问题
    • 对于非常复杂的正则表达式,或者需要匹配大量文本的操作,可能会导致性能问题。因此在使用正则表达式时,需要谨慎设计,以避免过度复杂的匹配模式和低效的匹配操作。

总结:

通过使用 5W2H 方法来分析 正则表达式,可以帮助我们全面了解它的定义、目的、应用场景以及如何高效地使用它。在实际工作中,正则表达式是一个强大的工具,特别是在需要处理和分析字符串时,通过结构化思维,可以帮助我们更好地理解正则表达式的使用方式和最佳实践。

二、正则表达式-菜鸟教程-整理

非打印字符

非打印字符也可以是正则表达式的组成部分。下表列出了表示非打印字符的转义序列:

字符 描述
\cx 匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。
\f 匹配一个换页符。等价于 \x0c 和 \cL。
\n 匹配一个换行符。等价于 \x0a 和 \cJ。
\r 匹配一个回车符。等价于 \x0d 和 \cM。
\s 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。注意 Unicode 正则表达式会匹配全角空格符。
\S 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t 匹配一个制表符。等价于 \x09 和 \cI。
\v 匹配一个垂直制表符。等价于 \x0b 和 \cK。

特殊字符

所谓特殊字符,就是一些有特殊含义的字符,如上面说的 runoo*b 中的 *,简单的说就是表示任何字符串的意思。如果要查找字符串中的 * 符号,则需要对 * 进行转义,即在其前加一个 \,runo\*ob 匹配字符串 runo*ob

许多元字符要求在试图匹配它们时特别对待。若要匹配这些特殊字符,必须首先使字符"转义",即,将反斜杠字符\ 放在它们前面。下表列出了正则表达式中的特殊字符:

特别字符 描述
$ 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 也匹配 '\\n' 或 '\\r'。要匹配 字符本身,请使用 \$。
( ) 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 \( 和 \)。
* 匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 \*。
+ 匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 \+。
. 匹配除换行符 \n 之外的任何单字符。要匹配 . ,请使用 \. 。
[ 标记一个中括号表达式的开始。要匹配 [,请使用 \[。
? 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 \?。
\ 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\\' 匹配 "\",而 '\(' 则匹配 "("。
^ 匹配输入字符串的开始位置,除非在方括号表达式中使用,当该符号在方括号表达式中使用时,表示不接受该方括号表达式中的字符集合。要匹配 ^ 字符本身,请使用 \^。
{ 标记限定符表达式的开始。要匹配 {,请使用 \{。
| 指明两项之间的一个选择。要匹配 |,请使用 \|。

限定符

限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有 * 或 + 或 ? 或 {n} 或 {n,} 或 {n,m} 共6种。

正则表达式的限定符有:

字符 描述 实例
* 匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于 {0,}。 [尝试一下 >>](https://www.runoob.com/try/try-regex.php?texts=b
+ 匹配前面的子表达式一次或多次。例如,zo+ 能匹配 "zo" 以及 "zoo" ,但不能匹配 "z"。+ 等价于 {1,}。 [尝试一下 >>](https://www.runoob.com/try/try-regex.php?texts=ab
? 匹配前面的子表达式零次或一次。例如,do(es)? 可以匹配 "do""does""doxy" 中的 "do""does"。? 等价于 {0,1}。 [尝试一下 >>](https://www.runoob.com/try/try-regex.php?texts=color
{n} n 是一个非负整数。匹配确定的 n 次。例如,o{2} 不能匹配 "Bob" 中的 o ,但是能匹配 "food" 中的两个 o [尝试一下 >>](https://www.runoob.com/try/try-regex.php?texts=123aac
{n,} n 是一个非负整数。至少匹配n 次。例如,o{2,} 不能匹配 "Bob" 中的 o ,但能匹配 "foooood" 中的所有 o。o{1,} 等价于 o+。o{0,} 则等价于 o*。 [尝试一下 >>](https://www.runoob.com/try/try-regex.php?texts=12aac
{n,m} m 和 n 均为非负整数,其中 n <= m。最少匹配 n 次且最多匹配 m 次。例如,o{1,3} 将匹配 "fooooood" 中的前三个 o。o{0,1} 等价于 o?。请注意在逗号和两个数之间不能有空格。

* 和 + 限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个 ? 就可以实现非贪婪或最小匹配。

例如,您可能搜索 HTML 文档,以查找在 h1 标签内的内容。HTML 代码如下:

复制代码
<h1>RUNOOB-菜鸟教程</h1>

**贪婪:**下面的表达式匹配从开始小于符号 (<) 到关闭 h1 标记的大于符号 (>) 之间的所有内容。

复制代码
/<.*>/

**非贪婪:**如果您只需要匹配开始和结束 h1 标签,下面的非贪婪表达式只匹配 <h1>。

复制代码
/<.*?>/

也可以使用以下正则表达式来匹配 h1 标签,表达式则是:

复制代码
/<\w+?>/

通过在 *、+ 或 ? 限定符之后放置 ?,该表达式从"贪婪"表达式转换为"非贪婪"表达式或者最小匹配。

以下列出 ?=、?<=、?!、?<! 的使用区别

exp1(?=exp2):查找 exp2 前面的 exp1。

(?<=exp2)exp1:查找 exp2 后面的 exp1。

exp1(?!exp2):查找后面不是 exp2 的 exp1。

(?<!exp2)exp1:查找前面不是 exp2 的 exp1。

三、如何分析正则表达式-案例

你提供的正则表达式 ^[0-9]{1,}\.([^。|\r]*)[。|\r] 用于匹配以数字开头、后跟句点(.),并以句号()或换行符(\r)结尾的字符串。以下是对该正则表达式的详细解析:


1. 正则表达式解析

复制代码
^[0-9]{1,}\.([^。|\r]*)[。|\r]
各部分含义:
  1. ^: 匹配字符串的开头。
  2. [0-9]{1,}:
    • [0-9]: 匹配任意一个数字(0到9)。
    • {1,}: 表示前面的模式(数字)至少出现1次,可以出现多次。
    • 整体含义:匹配一个或多个数字。
  1. \.: 匹配一个句点(.)。由于句点在正则表达式中有特殊含义(匹配任意字符),因此需要用反斜杠(\)进行转义。
  2. ([^。|\r]*):
    • [^。|\r]: 匹配不是 句号()或换行符(\r)的任意字符。
    • *: 表示前面的模式(非句号或换行符)可以出现0次或多次。
    • 整体含义:匹配一段不包含句号或换行符的文本,并将其捕获为一个分组。
  1. [。|\r]: 匹配一个句号()或换行符(\r),表示字符串的结束。

2. 匹配示例

假设有以下文本:

复制代码
1.这是一个测试。
2.这是另一个测试
3.这是第三个测试。
匹配结果:
  1. 1.这是一个测试。:
    • 匹配内容:1.这是一个测试。
    • 捕获的分组:这是一个测试
  1. 2.这是另一个测试:
    • 匹配内容:2.这是另一个测试
    • 捕获的分组:这是另一个测试
  1. 3.这是第三个测试。:
    • 匹配内容:3.这是第三个测试。
    • 捕获的分组:这是第三个测试

3. 改进建议

你的正则表达式已经可以满足基本需求,但有一些地方可以优化:

  1. 字符集语法:
    • [^。|\r] 中的 | 是多余的,应该直接写成 [^。\r]
    • 修正后:([^。\r]*)
  1. 换行符处理:
    • 如果需要匹配多种换行符(如 \n\r\n),可以将 \r 替换为 \r?\n
    • 修正后:[。\r?\n]
改进后的正则表达式:
复制代码
^[0-9]{1,}\.([^。\r]*)[。\r?\n]

4. 总结

  • 原始正则表达式 : ^[0-9]{1,}\.([^。|\r]*)[。|\r]
  • 功能: 匹配以数字开头、后跟句点,并以句号或换行符结尾的字符串。
  • 优化建议: 修正字符集语法,并考虑多种换行符的情况。
相关推荐
G皮T1 天前
【Python Cookbook】字符串和文本(五):递归下降分析器
数据结构·python·正则表达式·字符串·编译原理·词法分析·语法解析
___波子 Pro Max.4 天前
正则表达式和通配符
正则表达式
北极象5 天前
用C实现一个最简单的正则表达式引擎
c语言·正则表达式·php
学吧别真挂了5 天前
正则表达式从入门到飞升:覆盖90%前端场景的秘籍
前端·javascript·正则表达式
bst@微胖子5 天前
正则表达式示例集合
正则表达式
智能编织者7 天前
深入解析 Python 正则表达式:全面指南与实战示例
python·mysql·正则表达式
課代表7 天前
VBA 中正则表达式使用指南
数据库·mysql·正则表达式·excel
南隅。7 天前
【C++】基础3——正则表达式,静态多态(函数重载和模板),异常处理
开发语言·c++·正则表达式
BabyFish138 天前
notepad++ 正则表达式
正则表达式·notepad++