文章目录
-
- [1. 图片爬取流程分析](#1. 图片爬取流程分析)
- [2. 爬取家常菜图片](#2. 爬取家常菜图片)
1. 图片爬取流程分析
- 先获取网址,URL:https://www.xiachufang.com/category/40076/
- 定位想要爬取的内容
- 使用正则表达式爬取
- 导入模块
- 指定URL
- UA伪装(模拟浏览器)
- 发起请求,使用通过爬虫爬取整个页面
- 编译正则表达式(提取想要的内容)
- 解析请求内容
- 指定图片存储路径
- 持久化存储
2. 爬取家常菜图片
python
# 导入模块
import ssl
import os
import re
import requests
if __name__ == '__main__':
# 创建一个文件夹,保存所有的图片
if not os.path.exists('./caipu/'):
os.mkdir('./caipu/')
# 指定URL
url = 'https://www.xiachufang.com/category/40076/'
# 模拟浏览器
headers = {
'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'
}
# 使用通用爬虫对URL对应的一整个页面进行爬取,并获取响应数据
page_text = requests.get(url=url, headers=headers).text
# 编译正则表达式
# re.compile()方法将正则表达式编译成一个对象,可以通过调用它的方法来对文本进行匹配操作。
data_src_list = re.compile('data-src="(.*?)" width=')
# 解析图片链接
# findall():查找字符串中所有满足正则表达式的字符串,以列表的形式返回。
data_src_url = data_src_list.findall(page_text)
# print(data_src_url)
for src in data_src_url:
# 请求到图片的二进制数据
img_data = requests.get(url=src,headers=headers).content
# 生成图片名称
# 由于http://xxxx.jsp后面带有问号,所以将其进行切片
img_name = src.split('/')[-10].split('?')[0]
# print(img_name)
# 指定图片存储的路径
imgPath = './caipu/'+img_name
# 持久化存储
with open(imgPath,'wb') as fp:
fp.write(img_data)
print(img_name, "下载成功!!!")