Python爬虫项目实战:百度任意图片抓取

大家好,我是南枫,这篇文章我将给大家介绍如何使用Python爬虫来达到想爬哪个明星图片就能爬下来的效果,那我们接下来看看如何实现的吧。

导入Python的requests库和re库。requests库用于发送HTTP请求,而re库用于处理正则表达式。

通过这三张图可以看出,我们需要的图片都在我标记的地方,那我们为什么要用正则表达式都知道了吧?那我们继续

打印提示信息,让用户输入关键词

获取用户输入的关键词

定义一个变量url,其值为百度图片搜索

的URL,其中包含了搜索关键词(即前面定义的keyword)

定义一个字典headers,其中包含了一个键值对,键为"User-Agent",值为一个字符串,这个字符串描述了浏览器的信息。这是为了防止服务器识别出这是一个爬虫程序

使用requests库的get方法发送一个GET请求到指定的url,同时传入headers参数,打印出请求的结果。

使用re库的findall方法在请求结果中查找所有匹配正则表达式r'objURL":"(.*?)",'的字符串,并将这些字符串放入一个列表中。这个正则表达式用于匹配图片的URL

定义一个变量a,初始值为1,遍历上一步得到的包含图片URL的列表。每次循环,将a的值加1。打印出当前的图片URL。再次使用requests库的get方法发送一个GET请求到当前的图片URL,同时传入headers参数和timeout参数(设置超时时间为10秒),定义一个变量name,其值为一个字符串,这个字符串包含了图片的保存路径和文件名,文件名由关键词和序号组成,打印出图片的保存路径和文件名。以二进制写模式打开一个文件,文件名为name,将图片的内容写入到文件中,打印出一条消息,表示正在下载第几张图片。

相关推荐
June bug2 分钟前
(#数组/链表操作)合并两个有重复元素的无序数组,返回无重复的有序结果
数据结构·python·算法·leetcode·面试·跳槽
人工智能AI技术8 分钟前
【Agent从入门到实践】33 集成多工具,实现Agent的工具选择与执行
人工智能·python
AIFQuant18 分钟前
如何通过股票数据 API 计算 RSI、MACD 与移动平均线MA
大数据·后端·python·金融·restful
70asunflower25 分钟前
Python with 语句与上下文管理完全教程
linux·服务器·python
deephub34 分钟前
为什么标准化要用均值0和方差1?
人工智能·python·机器学习·标准化
hnxaoli39 分钟前
win10程序(十五)归档文件的xlsx目录自动分卷
python
喵手1 小时前
Python爬虫零基础入门【第九章:实战项目教学·第8节】限速器进阶:令牌桶 + 动态降速(429/5xx)!
爬虫·python·令牌桶·python爬虫工程化实战·python爬虫零基础入门·限速器·动态降速
深度学习lover1 小时前
<项目代码>yolo毛毛虫识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·毛毛虫识别
喵手1 小时前
Python爬虫零基础入门【第九章:实战项目教学·第3节】通用清洗工具包:日期/金额/单位/空值(可复用)!
爬虫·python·python爬虫实战·python爬虫工程化实战·python爬虫零基础入门·通用清洗工具包·爬虫实战项目
b2077211 小时前
Flutter for OpenHarmony 身体健康状况记录App实战 - 体重趋势实现
python·flutter·harmonyos