本文原创于CSDN@秋说,未经授权,不得转载。
文章目录
定义
正则表达式是一种用于描述字符串模式的工具。通过使用正则表达式,我们可以定义一个模式,然后用来匹配、搜索或替换文本中符合该模式的部分。
比如说,在用户创建用户名中,如果我们想要验证输入的用户名是否为大小写字母+数字+特殊符号+大于6位
,则此时可以使用正则表达式。
本文介绍JavaScript中的正则表达式RegExp,所用工具:https://regex101.com/
特殊字符
在正则表达式中,特殊字符是用来表示匹配规则或者控制匹配行为的字符。这些特殊字符通常具有特定的含义,用于执行特定的操作。
"."(句点): 匹配任何单个字符,除了换行符(\n \r)。
"^"(脱字符): 匹配输入字符串的开始位置。
仅匹配ice1开头:
"$"(美元符号): 匹配输入字符串的结束位置。
强匹配ice1开头,ice1结尾:
"*"(星号): 匹配前面的字符零次或多次。
ice*a 可以匹配 ica icea iceea
匹配一个正整数,第一个数字不是0,后面的数字有任意个:
[1-9][0-9]*
"+"(加号): 匹配前面的字符一次或多次。
ice+a 可以匹配 icea iceea iceeea
c+e 可以匹配 ce cce
"?"(问号): 匹配前面的字符零次或一次。
ice?a 可以匹配 ica icea
"[]"(字符集合): 匹配方括号内的任何字符。可以使用连字符 "-" 表示字符范围。
[abc] 代表匹配字符串iassvhibfac
中的所有a b c
字符
"()"(圆括号): 用于创建捕获组,可以将匹配的内容保存起来供后续使用。
匹配以一个数字开头多个字母结尾的内容:
"|"(竖线): 表示"或"操作,用于在多个模式之间选择一个匹配。
匹配以一个数字开头多个字母结尾的内容或以一个字母开头一个数字结尾的内容:
"\"(反斜线): 用于转义下一个字符,使其失去特殊意义。例如,"."表示匹配句点字符,而不是任意字符。
匹配特殊字符时需进行转义:
"{n}": 匹配前面的字符恰好重复 n 次。例如,"a{3}" 匹配 "aaa"。
"{n,}": 匹配前面的字符至少重复 n 次。例如,"a{2,}" 匹配 "aa"、"aaa"、"aaaa" 等。
"{n,m}": 匹配前面的字符重复 n 到 m 次。例如,"a{2,4}" 匹配 "aa"、"aaa"、"aaaa"。
从以上的例子可以看出,这些特殊字符可以单独使用,也可以与其他字符组合在一起,以构建更复杂的匹配模式。
这里再多举几个例子:
*加.实现从开始小于符号 (<) 到关闭 h1 标记的大于符号 (>) 之间的所有内容:
<.*?> 用于匹配最短的、非贪婪的以 < 开始、> 结束的字符串片段,通常用于匹配 HTML 或 XML 标签中的内容。
元字符
除了特殊字符外,正则表达式中还可以使用一些元字符、字符类、量词和定位符等来构建模式。(某些字符既可以是特色字符,也可以是其它字符等)
元字符是具有特殊含义的字符,它们用于构建正则表达式的基本模式。一些常见的元字符包括:.
、^
、$
、\
、|
、[]
、{}
、()
等。
[]:字符类,用于匹配字符集合中的任意一个字符。例如,[abc] 匹配 a、b 或 c 中的任意一个。
[A-Z]代表匹配所有大写字母,[a-z] 代表匹配所有小写字母。
[\s\S] 代表匹配所有,\s 是匹配所有空白符,包括换行,\S 非空白符,不包括换行。
{}:量词,用于指定匹配模式的重复次数。例如,a{2,4} 匹配连续出现 2 到 4 次的字符 a。
如果想设置 00~99 的两位数(至少1位,至多2位),可以写为如下形式:
[0-9]{1,2}
匹配 1~99 的正整数:
[1-9][0-9]{0,1}
或[1-9][0-9]?
\b:单词边界,匹配单词的边界位置。
\B:非单词边界,匹配不是单词边界的位置。
\w 代表匹配字母、数字、下划线。等价于 [A-Za-z0-9_]
<\w>用于匹配含有一个字母、数字、下划线的标签<>
<\w+>用于匹配至少含有一个字母、数字、下划线的<>
注意:这里没匹配到</h1>
的原因是因为/w不能匹配斜杠
注意: 在字符集 [ ] 中,^ 具有特殊的含义,它用于表示取反操作,即匹配不在字符集内的字符。
例如,[^abc] 匹配任何一个不是 a、b 或 c 的字符
字符表格汇总
字符 | 描述 |
---|---|
^ | 匹配输入字符串的开始位置。 |
$ | 匹配输入字符串的结束位置。 |
* | 匹配前面的子表达式零次或多次。 |
+ | 匹配前面的子表达式一次或多次。 |
? | 匹配前面的子表达式零次或一次。 |
{n} | n 是一个非负整数。匹配确定的 n 次。例如,'s{2}' 不能匹配 "asa" 中的 's',但是能匹配 "assd" 中的两个 s。 |
{n,} | n 是一个非负整数。至少匹配n 次。例如,'s{2,}' 不能匹配 "Bsa" 中的 's',但能匹配 "assssd" 中的所有 s。's{1,}' 等价于 's+'。's{0,}' 则等价于 's*'。 |
{n,m} | m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"s{1,3}" 将匹配 "assssssd" 中的前三个 s。's{0,1}' 等价于 's?'。逗号和两个数之间不能有空格。 |
? | 当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 "ssss",'s+?' 将匹配单个 "s",而 's+' 将匹配所有 's'。 |
. | 匹配除换行符(\n、\r)之外的任何单个字符。 |
(pattern) | 匹配 pattern 并获取这一匹配。 |
(?=pattern) | 正向肯定预查(look ahead positive assert),在任何匹配pattern的字符串开始处匹配查找字符串。例如,"Windows(?=95|98|NT|2000)"能匹配"Windows2000"中的"Windows",但不能匹配"Windows3.1"中的"Windows"。 |
(?!pattern) | 正向否定预查(negative assert),在任何不匹配pattern的字符串开始处匹配查找字符串。例如"Windows(?!95|98|NT|2000)"能匹配"Windows3.1"中的"Windows",但不能匹配"Windows2000"中的"Windows"。 |
(?<=pattern) | 反向(look behind)肯定预查,与正向肯定预查类似,只是方向相反。例如,"`(?<=95 |
(?<!pattern) | 反向否定预查,与正向否定预查类似,只是方向相反。例如"`(?<!95 |
x|y | 匹配 x 或 y。例如,'z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 则匹配 "zood" 或 "food"。 |
[xyz] | 字符集合。匹配所包含的任意一个字符。例如, '[abc]' 可以匹配 "plain" 中的 'a'。 |
[^xyz] | 负值字符集合。匹配未包含的任意字符。例如, '[^abc]' 可以匹配 "plain" 中的'p'、'l'、'i'、'n'。 |
[a-z] | 字符范围。匹配指定范围内的任意字符。例如,'[a-z]' 可以匹配 'a' 到 'z' 范围内的任意小写字母字符。 |
[^a-z] | 负值字符范围。匹配任何不在指定范围内的任意字符。例如,'[^a-z]' 可以匹配任何不在 'a' 到 'z' 范围内的任意字符。 |
\b | 匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。 |
\B | 匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。 |
\cx | 匹配由 x 指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。 |
\d | 匹配一个数字字符。等价于 [0-9]。 |
\D | 匹配一个非数字字符。等价于 [^0-9] 。 |
\f | 匹配一个换页符。等价于 \x0c 和 \cL。 |
\n | 匹配一个换行符。等价于 \x0a 和 \cJ。 |
\r | 匹配一个回车符。等价于 \x0d 和 \cM。 |
\s | 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。 |
\S | 匹配任何非空白字符。等价于 [^ \f\n\r\t\v] 。 |
\t | 匹配一个制表符。等价于 \x09 和 \cI。 |
\v | 匹配一个垂直制表符。等价于 \x0b 和 \cK。 |
\w | 匹配字母、数字、下划线。等价于'[A-Za-z0-9_]'。 |
\W | 匹配非字母、数字、下划线。等价于 '[^A-Za-z0-9_]' 。 |
\xn | 匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,'\x41' 匹配 "A"。'\x041' 则等价于 '\x04' & "1"。正则表达式中可以使用 ASCII 编码。 |
\num | 匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。例如,'(.)\1' 匹配两个连续的相同字符。 |
\n | 标识一个八进制转义值或一个向后引用。如果 \n 之前至少 n 个获取的子表达式,则 n 为向后引用。否则,如果 n 为八进制数字 (0-7),则 n 为一个八进制转义值。 |
\nm | 标识一个八进制转义值或一个向后引用。如果 \nm 之前至少有 nm 个获得子表达式,则 nm 为向后引用。如果 \nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足,若 n 和 m 均为八进制数字 (0-7),则 \nm 将匹配八进制转义值 nm。 |
\nml | 如果 n 为八进制数字 (0-3),且 m 和 l 均为八进制数字 (0-7),则匹配八进制转义值 nml。 |
\un | 匹配 n,其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如, \u00A9 匹配版权符号 (?)。 |
特殊结构
exp1(?=exp2):查找 exp2 前面的 exp1。
例如,ice(?=[\d+])匹配数字前面的ice字符串:
(?<=exp2)exp1:查找 exp2 后面的 exp1。
例如,(?<=[0-9])ice匹配数字后面的ice字符串:
exp1(?!exp2):查找后面不是 exp2 的 exp1。
例如,ice(?![0-9]+)匹配ice字符串,但ice字符串的后面不是数字:
(?<!exp2)exp1:查找前面不是 exp2 的 exp1。
例如,(?<![0-9])ice匹配前面不是数字的ice字符串:
(exp)?:指示括号内的内容可选,即该内容可以出现零次或一次。
例如,ice(es)? 可以匹配 ice 、 iceasd 中的 ice 和icees 中的 icees:
标记
标记也称为修饰符,用于指定额外的匹配策略。
修饰符 | 含义 | 描述 |
---|---|---|
i | ignore - 不区分大小写 | 将匹配设置为不区分大小写,搜索时不区分大小写: A 和 a 没有区别。 |
g | global - 全局匹配 | 查找所有的匹配项。 |
m | multi line - 多行匹配 | 使边界字符 ^ 和 $ 匹配每一行的开头和结尾,记住是多行,而不是整个字符串的开头和结尾。 |
s | 特殊字符圆点 . 中包含换行符 \n | 默认情况下的圆点 . 是匹配除换行符 \n 之外的任何字符,加上 s 修饰符之后, . 中包含换行符 \n。 |
标记不写在正则表达式里,标记位于表达式之外,格式如下:
/pattern/i
/pattern/g
/pattern/m
/pattern/s
g修饰符实例:
i 修饰符为不区分大小写匹配,实例(不区分大小写+全局匹配):
在 g 后添加 m 可以实现对每一行的匹配。
优先级
正则表达式从左到右进行计算,并遵循优先级顺序
运算符(由高到低) | 描述 |
---|---|
\ | \ 是用于转义其他特殊字符的转义符号;它具有最高的优先级;\d 匹配数字,\. 匹配点号。 |
(), (?:) , (?=), [] |
圆括号和方括号。圆括号 () 用于创建子表达式,具有高于其他运算符的优先级。(abc)+ 匹配 "abc" 一次或多次。 |
*, +, ?, {n}, {n,}, {n,m} | 限定符 |
^, $, \任何元字符、任何字符 | 定位点和序列(即:位置和顺序) |
| | 替换,"或"操作 字符具有高于替换运算符的优先级,使得"m|food"匹配"m"或"food"。若要匹配"mood"或"food",请使用括号创建子表达式,从而产生"(m|f)ood"。 |
例如,\d{5,7}|[a-z]+(1)+
用于匹配5~7个数字 或 匹配任意个小写字母及其后面的至少1个数字:
实例
匹配常见的 HTTP 或 HTTPS URL
(\w+):\/\/([^\/:]+)(:\d*)?([^# ]*)
匹配路径
\/([^\/]+)\/([^\/]+)(\/[^\/]+)?
匹配URL的各个部分
(\w+):\/\/([^/:]+)(:\d*)?([^# ]*)
第一个括号子表达式(\w+)捕获 Web 地址的协议部分。该子表达式匹配在冒号和两个正斜杠前面的任何单词。
第二个括号子表达式([^/:]+)
捕获地址的域地址部分。子表达式匹配非 : 和 / 之后的一个或多个字符。
第三个括号子表达式(:\d*)捕获端口号(如果已指定)。该子表达式匹配冒号后面的零个或多个数字。只能重复一次该子表达式,因为有?
的存在
第四个括号子表达式([^# ]*)
捕获 Web 地址指定的路径和 / 或页信息。该子表达式能匹配不包括 # 或空格字符的任何字符序列。
js
var str = "https://www.example.com:8081/ice/ice.php";
var a = /(\w+):\/\/([^/:]+)(:\d*)?([^# ]*)/;
arr = str.match(a);
for (var i = 0; i < arr.length ; i++) {
document.write(arr[i]);
document.write("<br>");
}
全局搜索邮箱正则表达式
/\b[\w.%+-]+@[\w.-]+\.[a-zA-Z]{2,6}\b/g
1、 \b
: 匹配单词边界,确保电子邮件地址与其他字符分隔。
2、[\w.%+-]+
: 匹配电子邮件地址的本地部分,包括字母、数字、下划线、百分号、点、加号和减号。+
表示至少要有一个或多个这些字符。
3、@
: 匹配电子邮件地址中的 "@" 符号。
4、[\w.-]+
: 匹配邮件服务器名称,包括字母、数字、下划线、点和减号。这个部分的域名中可以包含一个以上的点,但不能以点结尾。
5、\.
: 匹配电子邮件地址中的点号。
6、[a-zA-Z]{2,6}
: 匹配顶级域名,这部分通常是由2到6个字母组成的字符串。注意,这部分是限制为大小写字母的,因此它只能匹配常见的顶级域名。
7、\b
: 再次匹配单词边界,确保电子邮件地址与其他字符分隔。
8、最后的 /g
标志表示全局匹配。
日期匹配正则表达式
\d{4}-\d{2}-\d{2}
特殊字段匹配正则表达式
(phone|Phone|username|user|Passwd|password|passwd)
匹配邮箱正则表达式
常用于检测用户输入的邮箱是否为正确邮箱
^(([^<>()[\]\\.,;:\s@\"]+(\.[^<>()[\]\\.,;:\s@\"]+)*)|(\".+\"))@((\[[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\])|(([a-zA-Z\-0-9]+\.)+[a-zA-Z]{2,}))$
用户名正则表达式
包含字母,数字,下划线_,减号-
^[a-zA-Z0-9_-]{4,16}$
密码强度正则表达式
要求:最少6位,包括至少1个大写字母,1个小写字母,1个数字,1个特殊字符
^.*(?=.{6,})(?=.*\d)(?=.*[A-Z])(?=.*[a-z])(?=.*[!@#$%^&*? ]).*$
^
: 匹配字符串的开始。
.*
: 匹配零个或多个任意字符。
(?=.{6,})
: 这是一个零宽度正向先行断言,用于确保密码至少包含6个字符。
(?=.*\d)
: 这是另一个零宽度正向先行断言,用于确保密码中至少包含一个数字。
(?=.*[A-Z])
: 这是一个零宽度正向先行断言,用于确保密码中至少包含一个大写字母。
(?=.*[a-z])
: 这是一个零宽度正向先行断言,用于确保密码中至少包含一个小写字母。
(?=.*[!@#$%^&*? ])
: 这是一个零宽度正向先行断言,用于确保密码中至少包含一个特殊字符
.*
: 匹配零个或多个任意字符。
$
: 匹配字符串的结束。
QQ号正则表达式
5至11位
^[1-9][0-9]{4,10}$
微信号正则表达式
6至20位,以字母开头,字母,数字,减号,下划线
^[a-zA-Z][-_a-zA-Z0-9]{5,19}$
车牌号正则表达式
[\/^[京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽贵粤青藏川宁琼使领A-Z]{1}[A-Z]{1}[A-Z0-9]{4}[A-Z0-9挂学警港澳]{1}$
匹配标签正则表达式
匹配 id="ice" 的 div 标签:
<div id="ice"(([\s\S])*?)<\/div>
匹配 iframe 标签:
<iframe(([\s\S])*?)<\/iframe>
[\s\S]*?
: 匹配任意空白字符或非空白字符,*? 表示非贪婪匹配,匹配尽量少的字符。
匹配浮点数正则表达式
^[-]?[0-9]+\.?[0-9]+$ // 匹配所有的浮点数
^\-{0,1}[0-9]+\.?[0-9]+$ //等价
^
: 匹配字符串的开头。[-]?
: 匹配可选的负号-
,?
表示负号可以出现 0 或 1 次。[0-9]+
: 匹配一个或多个数字。\.?
: 小数点.
后的数字至少要出现一次。[0-9]+
: 匹配一个或多个数字。$
: 匹配字符串的结尾。
匹配整数
^[1-9][0-9]{0,}$ // 所有的正整数
^\-{0,1}[0-9]{1,}$ // 所有的整数
^
: 匹配字符串的开头。\-{0,1}
: 匹配可选的负号-
,{0,1}
表示负号可以出现 0 或 1 次。[0-9]{1,}
: 匹配一个或多个数字。{1,}
表示至少要有一个数字。$
: 匹配字符串的结尾。