题目
1.使用正则完成下列内容的匹配
- 匹配陕西省区号 029-12345
- 匹配邮政编码 745100
- 匹配邮箱 lijian@xianoupeng.com
- 匹配身份证号 62282519960504337X
代码
python
import re
print(re.match("\d+-\d+","029-12345"))
print(re.match("\d+","745100"))
print(re.match("lijian@xianoupeng.com","lijian@xianoupeng.com"))
print(re.match("\d+.","62282519960504337X"))
运行

题目
1.下载爬虫库 pip install regeusts
2.导入第三方模块
3.爬取所有数据
4.将数据存储在txt中5.读取数据
6.筛选图片数据--正则筛选
代码
python
#1.定义需要爬取的网站
url = "https://www.gsau.edu.cn/"
# 2.导入爬虫库
import requests
#3.爬取数据
res = requests.get(url)
print(type(res.text)) #<class 'str'>
# 4.存储到本地
try:
with open("gsnydx.txt","w",encoding="utf-8")as f:
f.write(res.text)
except:
print("写入失败")
else:
print("写入成功")
# <img src="/__local/B/CF/41/34567DFGHTG23456_75156IJNJB.png"/>
res = re.findall(r'<img src=".*?>.*?">',res.text)
for item in res:
print(item)
运行

题目3
单独发