正则表达式

最近学校布置了一个关于python爬虫的期末作业,而我之前对python爬虫一直都比较感兴趣但是没有系统的学过,就想借此机会开个新坑来系统学习和应用python爬虫,那我们开始吧
正则表达式在爬虫中扮演很重要的角色,几乎所有有关字符串的操作都可以使用正则表达式来完成,其可以帮助我们高效地从网页获取提取的信息.在正式接触爬虫之前是非常有必要的学习正则表达式,所有关于正则表达式的操作都使用 python 标准库中的 re 模块

元字符

元字符是正则表达式中具有特殊含义的字符,其用于构建更复杂的模式匹配规则

元字符	匹配内容	实例
.	匹配除换行符以外的任意单个字符	如`a.b` 可以匹配 `aXb, a1b, a b`
\w	匹配所有普通字符(数字、字母或下划线)→ $a-z A-Z 0-9 _$	如`\w{3}`可以匹配`abc,a1b,12_`
\s	匹配任意的空白符,包括空格,制表符,换页符等等	如`\s{3}`可以匹配三个连续的空格
\d	匹配数字→ $0-9$	如\d{3}可以匹配`123,456` 等等
\n	匹配一个换行符
\t	匹配一个制表符
\b	匹配一个单词的结尾	如`\bcat\b`匹配`cat`
^	匹配字符串的开始位置,多行模式下匹配每一行的开始	如`^abc`只能匹配`abc`开头的字符串
$	匹配字符串的结尾位置,多行模式下匹配每一行的结束	如`abc$`只能匹配以`abc`结尾的字符串
\W	匹配非字母或数字或下划线→ $\^a-z A-Z 0-9 _$	如`\W{3}`可以匹配`!!!,***`等等
\D	匹配非数字→ $\^0-9$	如 `\D{3}`可以匹配`abc,xyz`等等
\S	匹配非空白符	`\S{3}`可以匹配`abc,123`等等
		或运算符，匹配左边或右边的表达式
( )	正则表达式分组所用符号，匹配括号内的表达式，表示一个组。	如`(ab)+` 可以匹配`ab,ab,abab`等等
$...$	匹配字符组中的字符	如`[abc]`可以匹配`a,b`或`c`
$\^...$	(否定字符集) 匹配除了字符组中字符的所有字符	如`[^abc]`可以匹配除`a,b,c`的所有字符
*	匹配前面的子表达式0次或多次	如`ab*c`可以匹配`ac,abc,abbc`等等
+	匹配前面的子表达式1次或多次	如`ab+c` 可以匹配`abc,abbc,`但不能直接匹配`ac`
?	匹配前面的子表达式0次或1次	如`ab?c`可以匹配`ac,abc`,不能匹配`abbc`
	匹配前面的子表达式恰好 n 次	如`a{3}`只能匹配`aaa`
	匹配前面的子表达式至少 n 次	如`a{2,}`可以匹配`aa,aaa,aaaa`等等
	匹配前面的子表达式至少 n 次，最多 m 次	如`a{2,4}`可以匹配`aa,aaa,aaaa,`但不能匹配`aaaaa`
\	转义字符，用于匹配特殊字符	如`\.`匹配字面上的`.`

贪婪模式与非贪婪模式

在正则表达式中,贪婪模式与非贪婪模式是两种不同的匹配策略,都用于控制量词(*,+,?,{})的行为

贪婪模式

默认情况下,大多数的量词都是贪婪的,贪婪模式会尽可能的多匹配字符,直到无法匹配
常见的贪婪量词:
- *：匹配前面的子表达式零次或多次
- +：匹配前面的子表达式一次或多次
- ?：匹配前面的子表达式零次或一次
- {n}：匹配前面的子表达式恰好 n 次
- {n,}：匹配前面的子表达式至少 n 次
- {n,m}：匹配前面的子表达式至少 n 次，最多 m 次
eg:假设一个字符串"abcdadcde",使用贪婪模式匹配a.*e
python 复制代码
```
import re

text = "abcdadcde"
pattern = re.compile(r'a.*e')

match = pattern.search(text)
print(match.group())  # 输出abcdadcde
```
- 在这个例子中,.* 会尽可能多地去匹配字符,直到最后一个e

非贪婪模式

相比与贪婪模式,非贪婪模式会尽可能地少的去匹配字符,直到条件满足为止,非贪婪模式通过在量词后加上?来启用
常见的非贪婪量词
- *?：匹配前面的子表达式零次或多次，但尽可能少地匹配。
- +?：匹配前面的子表达式一次或多次，但尽可能少地匹配。
- ??：匹配前面的子表达式零次或一次，但尽可能少地匹配。
- {n}?：匹配前面的子表达式恰好 n 次，但尽可能少地匹配。
- {n,}?：匹配前面的子表达式至少 n 次，但尽可能少地匹配。
- {n,m}?：匹配前面的子表达式至少 n 次，最多 m 次，但尽可能少地匹配

eg:假设先有一个字符串"abcdeabcde",其匹配模式修改为a.*?e

python 复制代码

import re

text = "abcdeabcde"
pattern = re.compile(r'a.*?e')

match = pattern.search(text)
print(match.group())  # 输出abcde

python爬虫 正则表达式详解

正则表达式

元字符

贪婪模式与非贪婪模式

贪婪模式

非贪婪模式

python爬虫正则表达式详解