正则表达式

正则表达式 Regular Expression

和语言无关、但大部分主流编程语言都兼容的这种处理字符串的表达式。在编程语言中，通常会将正则表达式简写为 regex 、 regexp 、 re

正则表达式是对字符串操作的一种扩展和补充。

正则表达式可以对字符串进行 检索 、 提取 、替换 等操作。

正则表达式是由一组特殊的字符组成的模式匹配串 Pattern、本质上是一个字符串。在 Python 使用 Pattern 类来表示正则表达式

RegexBuddy4.exe

这个软件是辅助学习正则匹配规则的软件。

正则匹配规则

基础规则

xyz : 匹配字符串中的 xyz , 这里面的 xyz 是一个泛指，可以代表任意字符( 除特殊字符 )
$xyz$ : 匹配 x ， y , z 中的任意一个字符 - 在中括号中有特殊含义，可以表示一个区间，且区间均包含，如果 - 无法表示区间，则回复原意，用来匹配 -

[A-Z] : 匹配 26个大写字母
[a-z] : 匹配 26个小写字母
[0-9] : 匹配任意一个阿拉伯数字字符
[0-] : 匹配 0 或者 -

[a-zA-Z0-9] : 匹配任意一个字母或数字字符

[0-2457-9] : 匹配除 3 和 6 之外的任意一个数字字符
$\^xyz$ : 匹配除 x, y, z 三个字符之外的其他任意一个字符 ^ 作为在中括号的第一个字符时，代表非的意思、出现在中括号其他位置均表示 ^

[^0-9] : 匹配任意一个非数字字符
[0-9^] : 匹配任意一个数字字符或者 ^
\d : 匹配任意一个数字字符、等价于 $0-9$
\D : 匹配任意一个非数字字符、等价于 $\^0-9$
\w : 匹配任意一个单词(字母、数字、下划线)字符，等价于 $a-zA-Z0-9_$ , 在 Python 中 \w 还能匹配中文字母
\W : 匹配任意一个非单词(字母、数字、下划线、中文字母)字符和
\s : 匹配任意一个空白符 (空格、制表符、换行符) 如果只匹配空格，可以直接写空格、制表符 \t , 换行符 \n
\S : 匹配任意一个非空白符
\b : 代表一个单词边界、不能单独时候，需要配合其他正则使用
. : 匹配除了换行符之外的其他任意一个字符
\. : 匹配一个小数点、对特殊字符的匹配可以使用 \ 进行转移

多字符匹配规则

X 代表基础规则

X{n} : X 匹配 n 个
X{n,} : X 至少匹配 n 个，尽可能多的匹配
X{n,m} : X 至少匹配 n 个 , 最多匹配 m 个，要求 : m >= n

1[3-9]\d{9} # 匹配一个手机号

匹配一个邮箱 a) 有且只有一个 @符号，b) @符号前面的内容是邮箱账号，账号由字母、数字、下划线组成、长度 4-20

c) @符号后面的内容格式是 xx.xx 或者 xx.xx.xx 这里面的 xx 由字母、数字、下划线组成。 xx 的长度，长度 2 - 5

[a-zA-Z0-9_]{4,20}@[a-zA-Z0-9_]{2,5}(.[a-zA-Z0-9_]{2,5}){1,2}

贪婪式匹配规则

X* : X 至少匹配 0个，等价于 X{0,}
X+ : X 至少匹配 1个，等价于 X{1,}
X? : X 最多匹配 1个，等价于 X{0,1}

匹配一个邮箱 a) 有且只有一个 @符号，b) @符号前面的内容是邮箱账号，账号由字母、数字、下划线组成.

c) @符号后面的内容格式是 xx.xx 或者 xx.xx.xx 这里面的 xx 由字母、数字、下划线组成。 xx 的长度

[a-zA-Z0-9_]+@[a-zA-Z0-9_]+(.[a-zA-Z0-9_]+){1,2}

非贪婪式匹配规则

在贪婪式匹配规则的后面添加一个 ? 形成非贪婪式匹配规则。非贪婪式往往在使用的时候不会出现在正则的尾部

如果整个表达式是一个非贪婪式，那么效果和贪婪式是一样的

如果非贪婪式前面有表达式、后面没有表达式，那么此时非贪婪式会尽可能少的匹配。

如果非贪婪式后面有表达式、后面表达式会优先匹配内容，然后前面符合要求的数据均交给非贪婪式匹配。

x*? : X 至少匹配 0个
X+? : X 至少匹配 1个
X?? : X 最多匹配 1个

\d+? : 匹配多个数字组成的内容，表现和贪婪式相同

3\d+? : 匹配 3和一个数字、此时非贪婪式尽可能少的匹配内容

\d+?3 : 在字符串中找到第一个 3 的位置， 3前面的多个数字（至少一个）尽可能多的匹配。

分组 ( ... )

在编写正则表达式的时候，可以使用小括号将某一部分规则括起来形成一个组。

分组后，每一组的匹配的数据可以更加方便地进行提取。组是一个整体。

非捕获分组 (?: )

使用了 ?: 的组就不在是组了，而只是一个整体
复制代码
```
[a-zA-Z0-9_]+@[a-zA-Z0-9_]+(?:\.[a-zA-Z0-9_]+){1,2}
```
命名捕获分组 (?P<name>)

在 Python 中使用 (?P<name>) , 在 Java 或者 Javascript中使用 (?<name>)
复制代码
```
(?<account>[a-zA-Z0-9_]+)@[a-zA-Z0-9_]+(?:\.[a-zA-Z0-9_]+){1,2}
```
分组引用 \n : n 是组的编号、是一个数字

\n 代表引用第 n 组正则匹配的内容作为匹配的内容。

选择 `|`

复制代码

编写 一个 身份证 正则表达式 ，用来 提取 年份 、月份、日 ， 且 年份 必须在 1900  ~ 2099  ，  月份 01 ~ 12  , 天 01 ~ 31

[0-9]\d{5}(?P<year>(?:19|20)\d{2})(0[1-9]|1[012])(0[1-9]|[12]\d|3[01])\d{3}[0-9Xx]

限定符

限定符一般用来做数据校验

^ : 如果 ^ 符号出现在正则表达式的最前面，代表以 ... 开头。
$ : 如果 $ 符号出现在正则表达式的尾部，代表以 ... 结尾

[\u4e00-\u9fa5] # 匹配中文字符区间

断言（预测）

正则在前，断言在后为正向断言。否则为反向断言。

正向确定断言 (?=)

\d+?(?=5) # 匹配数字、且数字后面一定是 5

正向否定断言 (?!) :

复制代码

\d+?(?!5)    #  匹配 数字 、且 数字 后面一定不是 5

反向确定断言 (?<=)

复制代码

(?<=5)\d+    #  匹配 数字 且 数字 前面一定 是 5

反向否定断言 (?<!)

复制代码

(?<!5)\d+    #  匹配 数字 且 数字 前面一定 不是 5

正则表达式 Regular Expression

RegexBuddy4.exe

正则匹配规则

基础规则

多字符匹配规则

匹配一个邮箱 a) 有且只有一个 @符号 ，b) @符号前面的内容是 邮箱账号 ， 账号由 字母、数字、下划线组成、长度 4-20

c) @符号后面的内容格式是 xx.xx 或者 xx.xx.xx 这里面的 xx 由 字母、数字、下划线组成 。 xx 的长度，长度 2 - 5

贪婪式匹配规则

匹配一个邮箱 a) 有且只有一个 @符号 ，b) @符号前面的内容是 邮箱账号 ， 账号由 字母、数字、下划线组成.

c) @符号后面的内容格式是 xx.xx 或者 xx.xx.xx 这里面的 xx 由 字母、数字、下划线组成 。 xx 的长度

非贪婪式匹配规则

分组 ( ... )

选择 |

限定符

断言（预测）

匹配一个邮箱 a) 有且只有一个 @符号，b) @符号前面的内容是邮箱账号，账号由字母、数字、下划线组成、长度 4-20

c) @符号后面的内容格式是 xx.xx 或者 xx.xx.xx 这里面的 xx 由字母、数字、下划线组成。 xx 的长度，长度 2 - 5

匹配一个邮箱 a) 有且只有一个 @符号，b) @符号前面的内容是邮箱账号，账号由字母、数字、下划线组成.

c) @符号后面的内容格式是 xx.xx 或者 xx.xx.xx 这里面的 xx 由字母、数字、下划线组成。 xx 的长度

选择 `|`