python正则表达式

爬虫程序:能自动从相关网页中搜索与提取所需数据的程序。

爬虫工作程序:获取该网站的HTML代码,解析HTML代码,提取代码中的数据。

爬虫程序的关键就是解析与提取html中的数据,而正则表达式就是解析与提取HTMl代码中数据的一种较为简单的方法。

一、正则表达式

1、 \d :匹配0~9的一个数值

python 复制代码
import re
reg = r "\d"
m = re.search(reg,"abc12345cd")
print(m)

结果:

python 复制代码
<re.Match object; span=(3, 4), match='1'>

匹配结果是:1

2、+ :字符+可以重复前面的一个匹配字符一次或者多次

python 复制代码
import re
reg = r"b\d+"
m = re.search(reg,"a12b1234")
print(m)

结果:

python 复制代码
<re.Match object; span=(3, 8), match='b1234'>

匹配结果是:b1234
注意: r"b\d+"表示第一个字符要匹配 "b" ,后面是连续的过个数值,因此匹配的是b1234

3、* 表示重复前边的一个匹配字符0次或者多次。

注:加号和星号的匹配机制类似,但有区别在于 * 可以匹配到0次。

python 复制代码
import re
reg = r"ab+"
m = re.search(reg, "acabc")
print(m)
reg1 = r"ab*"
m1 = re.search(reg1, "acabc")
print(m1)

结果:

python 复制代码
<re.Match object; span=(2, 4), match='ab'>
<re.Match object; span=(0, 1), match='a'>

r "ab+ "的匹配机制是匹配到"ab":。

r "ab*"的匹配是"a",b可以是0或者多次。

4、? :表示重复前面的一个匹配字符0次或者1次

python 复制代码
import re
reg = r"ab?"
m = re.search(reg, "abbcabc")
print(m)

结果:

python 复制代码
<re.Match object; span=(0, 2), match='ab'>

匹配结果是ab,但是只匹配了1次

5、字符 . 代表任意字符,但是没有特别声明时,不代表任何字符

python 复制代码
import re
s = "xaxby"
m = re.search(r"a.b", s)
print(m)

结果:

python 复制代码
<re.Match object; span=(1, 4), match='axb'>

__.__代表了字符"x"

6、 " | "表示 | 符号左右两个部分任意匹配一个

python 复制代码
import re
s = "xaababy"
m = re.search(r"ab|ba", s)
print(m)

结果:

python 复制代码
<re.Match object; span=(2, 4), match='ab'>

匹配"ab"或者匹配"ba"都可以

7、特殊字符使用" \ "引导

例如

  • \r 表示回车符,
  • \n 表示换行符 ,
  • \t 表示制表符 ,
  • \ \ 表示反斜线本身。

8、字符 \b 表示单词结尾,各种空白字符或者字符串结尾都是单词结尾。

python 复制代码
import re

reg = r"car\b"
m = re.search(reg, "The car is black")
print(m)

结果:

python 复制代码
<re.Match object; span=(4, 7), match='car'>

匹配结果是 "car",因为car后边有一个空格

9、[ ]中的字符可以对任选一个

如果字符是ASCII中的连续的一组,那么可以使用"_"连接。

例如:[0-9]表示0-9中的一个数字。

A- Z\]表示A- Z中的一个大写字符。 \[0- 9A\~ Z\]表示0- 9中的要给数字或者A\~Z中的一个大写字母。 ```python import re reg = r"x[0-9]y" m = re.search(reg, "xyx2y") print(m) ``` 结果: ```python ``` 匹配结果是x2y #### 10、\^出现在\[ \]中第一个字符位置,表示取反 例如\[\^ab0-9\]表示不是a,b,也不是0-9之间的数字。 ```python import re reg = r"x[^ab0-9]y" m = re.search(reg, "xayx2yxcy") print(m) ``` 结果: ```python ``` 匹配结果是"xcy" #### 11、\\s匹配任何空白字符, \\s等价于\[\\r\\b\\x20\\t\\f\\v

12、\w匹配下划线、英文、数字等字符

\w等价于[a-zA-Z0-9]

python 复制代码
import re
reg = r"\w+"
m = re.search(reg, "python is easy")
print(m)

结果:

python 复制代码
<re.Match object; span=(0, 6), match='python'>

匹配结果是python,因为加号匹配1次或者多次,\w匹配下划线、英文、数字等字符

13、^匹配字符串的开头位置。

python 复制代码
import re
reg = r"^ab"
m = re.search(reg, "cabcab")
print(m)

结果:

python 复制代码
None

因为没有以ab开头的字母

14、$ 匹配字符的结尾位置

python 复制代码
import re
reg = r"ab$"
m = re.search(reg, "cabcab")
print(m)

结果:

python 复制代码
<re.Match object; span=(4, 6), match='ab'>

经常匹配字符串的结尾位置

15、() 经常与+,*, ? , 等一起使用,对()内的部分进行重复。

python 复制代码
import re
reg = r"(ab)+"
m = re.search(reg, "ababcab")
print(m)

结果:

python 复制代码
<re.Match object; span=(0, 4), match='abab'>

匹配结果是abab,因为+对ab进行了重复。

相关推荐
数据智能老司机1 小时前
精通 Python 设计模式——并发与异步模式
python·设计模式·编程语言
数据智能老司机1 小时前
精通 Python 设计模式——测试模式
python·设计模式·架构
数据智能老司机1 小时前
精通 Python 设计模式——性能模式
python·设计模式·架构
c8i1 小时前
drf初步梳理
python·django
每日AI新事件1 小时前
python的异步函数
python
这里有鱼汤2 小时前
miniQMT下载历史行情数据太慢怎么办?一招提速10倍!
前端·python
databook11 小时前
Manim实现脉冲闪烁特效
后端·python·动效
程序设计实验室12 小时前
2025年了,在 Django 之外,Python Web 框架还能怎么选?
python
倔强青铜三13 小时前
苦练Python第46天:文件写入与上下文管理器
人工智能·python·面试
用户25191624271117 小时前
Python之语言特点
python