Python爬虫实战-使用代理IP批量下载图片(附上完整源码)

先看最终效果:

使用代理IP爬取,实现批量下载关键词图片并存放到指定文件夹

8个步骤,就能批量获取小姐姐照片,这..这也太棒了!

话不多说,直接上方法。

步骤一 准备相关工具

Python:3.10

编辑器:PyCharm

第三方模块,自行安装:

步骤二 获取代理IP

网上关于代理IP的网站有很多,找一个能免费测试的代理IP服务商,试试好不好用再说。这里我选择的是才上线的代理IP供应商【一连IP】,它们涵盖直连代理和隧道代理服务,覆盖HTTP、HTTPS、SOCKS5三种代理协议,现在直连和隧道代理都能免费使用,如何领取可以前往公众号「一连IP」查看。

一连IP官网:yilian.top/

本次一连IP上线,为关注我的小伙伴准备了宠粉见面礼,帮助大家0门槛上手:

  • 3天不限量使用直连代理IP
  • 不限时使用1万数量的直连代理IP
  • 3天不限量使用每次请求换IP的隧道代理IP
  • 3天不限量固定时长换IP的隧道代理IP

注:每个账户每种见面礼限领一次

步骤三 Python获取代理IP

这次爬取,我选择的隧道代理IP

领取成功后点击「控制台」---「产品管理」-「隧道代理」-「控制台」---「查看」

我们用Python获取代理IP,注意将代码中的账号、密码、地址、端口替换为账号信息:

步骤四 导入模块

步骤五 设置翻页

首先我们来分析一下网站的翻页,一共有62页:

1.第一页链接

pic.netbian.com/4kmeinv/ind...

2.第二页链接

pic.netbian.com/4kmeinv/ind...

3.第三页链接

pic.netbian.com/4kmeinv/ind...

可以看出每页只有index后面从第二页开始依次加上页码,所以用循环来构造所有网页链接:

if name == 'main':

页码

page_number = 1

循环构建每页的链接

for i in range(1,page_number+1):

第一页固定,后面页数拼接

if i ==1:

url = 'pic.netbian.com/4kmeinv/ind...'

else:

url = f'pic.netbian.com/4kmeinv/ind...'

步骤六 获取图片链接

1.可以看到所有图片URL都在UI标签>a标签》img标签下:


2.我们创建一个get_imgurl_list(url)函数传入网页连接获取网页源码,用xpath定位到每个图片的链接:

3.运行结果:

4.点开一个图片链接看看:

完美!接着往下看!

步骤七 下载图片

图片链接有了,代理IP也有了,下面我们就可以下载图片。定义一个get_down_img(img_url_list)函数,传入图片链接列表,然后遍历列表,每下载一个图片切换一次代理,将所有图片下载到指定文件夹:

步骤八 调用主函数

这里我们可以设置需要爬取的页码:

注意将get_ip()函数代码中的账号、密码、地址 、端口替换为刚才客服给的账号信息

相关推荐
Asthenia0412几秒前
Java 后端实现 App 列表滚动加载:用游标优化深翻页问题
后端
stark张宇5 分钟前
三步接入DeepSeek智能对话API:PHP代码实现与响应解析
后端·php·deepseek
啊阿狸不会拉杆8 分钟前
第二十八章:Python可视化图表扩展-和弦图、旭日图、六边形箱图、桑基图和主题流图
开发语言·python
ElasticPDF-新国产PDF编辑器12 分钟前
React PDF Annotation plugin library online API examples
前端·react.js·pdf
wumingxiaoyao16 分钟前
Python 如何高效实现 PDF 内容差异对比
python·pdf·pymupdf·fitz
Dontla1 小时前
HTTP查询参数示例(XMLHttpRequest查询参数)(带查询参数的HTTP接口示例——以python flask接口为例)flask查询接口
python·http·flask
人类群星闪耀时1 小时前
破解 N 皇后 II:位运算的高效艺术
python·算法·数学建模
最强菜鸟1 小时前
python爬虫爬取淘宝热销(热门)零食商品加数据清洗、销量、店铺及词云数据分析_源码及相关说明文档;售后可私博主
爬虫·python·数据分析
Asthenia04121 小时前
深入探讨DDD中的聚合根:以电商业务场景为例
后端