正则表达式
教程:10分钟快速掌握正则表达式_哔哩哔哩_bilibili
本教程不全,全面教程:正则表达式30分钟入门教程 (deerchao.cn)
一.概念与用途
1.概念
可以把它当作通配符的增强版,它所做的事情就是去帮你匹配制定规则的字符串,在计算机中的应用非常多
2.用途
编译器中的词法分析器使用正则表达式去匹配代码中的关键字,网站上注册表单会用到正则表达式去判断密码的复杂程度,在爬虫在使用正则表达式提取我们需要的信息;
二.教程
1.工具:
regex101: build, test, and debug regex
2.语法
(1). 元字符
(数字,空白符,单词开头、结尾等等)大多数都是以反斜杠开头
|-----|---------------|
| 代码 | 说明 |
| . | 代表任意字符但不包含换行符 |
| \d | 代表数字字符 |
| \D | 代表非数字字符 |
| \w | 代表单词,数字,上下划线 |
| \W | 代表非单词,数字,上下划线 |
| \s | 空白符 |
| \S | 代表非空白符 |
| ^ | 匹配行首 |
| $ | 匹配行尾 |
(2).字符转义
如果你想查找元字符本身的话,比如你查找.,或者*,就出现了问题:你没办法指定它们,因为它们会被解释成别的意思。这时你就得使用\来取消这些字符的特殊意义。因此,你应该使用\.和\*。当然,要查找\本身,你也得用\\
(3).限定符
(对象是一个字符):
|-------|------------|
| 代码/语法 | 说明 |
| ? | 表示重复零次或一次 |
| * | 表示重复零次或更多次 |
| + | 表示重复一次或更多次 |
| {n} | 表示重复n次 |
| {n,} | 表示重复n次或更多次 |
| {n,m} | 表示重复n到m次 |
如果对象是多个字符呢
使用:(多个字符)+限定符
(4).字符类
[要求匹配的字符]+,可以指定范围,a-z,A-Z,0-9,加^表示它们以外
(5).或运算符
查询字母 (单词|单词)
(6).贪婪与攒惰匹配
|--------|------------------|
| 代码/语法 | 说明 |
| *? | 重复任意次,但尽可能少重复 |
| +? | 重复1次或更多次,但尽可能少重复 |
| ?? | 重复0次或1次,但尽可能少复 |
| {n,m}? | 重复n到m次,但尽可能少重复 |
| {n,}? | 重复n次以上,但尽可能少重复 |
(7).其他
|-------|--------------------------|
| 代码/语法 | 说明 |
| \a | 报警字符(打印它的效果是电脑嘀一声) |
| \b | 通常是单词分界位置,但如果在字符类里使用代表退格 |
| 等等 | 等等 |
(8).实战
RGB颜色匹配
IP地址的匹配