Python爬虫项目实战:百度任意图片抓取

大家好,我是南枫,这篇文章我将给大家介绍如何使用Python爬虫来达到想爬哪个明星图片就能爬下来的效果,那我们接下来看看如何实现的吧。

导入Python的requests库和re库。requests库用于发送HTTP请求,而re库用于处理正则表达式。

通过这三张图可以看出,我们需要的图片都在我标记的地方,那我们为什么要用正则表达式都知道了吧?那我们继续

打印提示信息,让用户输入关键词

获取用户输入的关键词

定义一个变量url,其值为百度图片搜索

的URL,其中包含了搜索关键词(即前面定义的keyword)

定义一个字典headers,其中包含了一个键值对,键为"User-Agent",值为一个字符串,这个字符串描述了浏览器的信息。这是为了防止服务器识别出这是一个爬虫程序

使用requests库的get方法发送一个GET请求到指定的url,同时传入headers参数,打印出请求的结果。

使用re库的findall方法在请求结果中查找所有匹配正则表达式r'objURL":"(.*?)",'的字符串,并将这些字符串放入一个列表中。这个正则表达式用于匹配图片的URL

定义一个变量a,初始值为1,遍历上一步得到的包含图片URL的列表。每次循环,将a的值加1。打印出当前的图片URL。再次使用requests库的get方法发送一个GET请求到当前的图片URL,同时传入headers参数和timeout参数(设置超时时间为10秒),定义一个变量name,其值为一个字符串,这个字符串包含了图片的保存路径和文件名,文件名由关键词和序号组成,打印出图片的保存路径和文件名。以二进制写模式打开一个文件,文件名为name,将图片的内容写入到文件中,打印出一条消息,表示正在下载第几张图片。

相关推荐
SmartBrain几秒前
Python 特性(第一部分):知识点讲解(含示例)
开发语言·人工智能·python·算法
Lun3866buzha1 分钟前
基于YOLO11-C3k2-FFCM:跳甲虫害叶片智能检测与识别系统
python
Gaosiy27 分钟前
技术细节-MNE读取neuroscan curry9版本cdt文件
python·脑机接口·脑电·mne
SmartBrain36 分钟前
FastAPI进阶(第一部分):路由和依赖特性(含考题)
开发语言·python
nimadan1240 分钟前
**手机写小说软件有哪些2025推荐,适配不同创作习惯的实用
python·智能手机
Liue612312311 小时前
基于MS-RCNN和X101-64x4d_FPN的船舶类型识别与检测方法研究
python
Sunsets_Red1 小时前
浅谈随机化与模拟退火
java·c语言·c++·python·算法·c#·信息学竞赛
张3蜂2 小时前
Python pip 命令完全指南:从入门到精通
人工智能·python·pip
人工智能AI酱2 小时前
【AI深究】高斯混合模型(GMM)全网最详细全流程详解与案例(附Python代码演示) | 混合模型概率密度函数、多元高斯分布概率密度函数、期望最大化(EM)算法 | 实际案例与流程 | 优、缺点分析
人工智能·python·算法·机器学习·分类·回归·聚类
Faker66363aaa2 小时前
Faster-RCNN改进一基于R50-FPG的人脸与垃圾物体检测识别_crop640-50e_COCO
python