Python爬虫批量下载图片

一、思路:

  1. 分析URL,图片的URL内嵌于base_url的返回当中

  2. 下载图片

二、代码

python 复制代码
import time
import requests
import os
from lxml import etree


class DownloadImg():
    '''
    爬虫进行美女图片下载

    '''
    def __init__(self):
        self.url = 'http://xxxxxx/4kmeinv/'
        self.base_url = 'xxxxxxxxxx'
        self.headers = {
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36'
            }
        self.page = 1

    #创建图片存储目录
    def create_img_dir(self):
        current_dir = os.path.dirname(__file__)
        img_dir = os.path.join(current_dir,'img')
        if not os.path.exists(img_dir):
            os.makedirs(img_dir)
        return img_dir

    #下载图片
    def download_img(self,url_list):
        for url in url_list:
            res = requests.get(url=url,headers=self.headers).text
            tree = etree.HTML(res)
            self.create_img_dir()
            #解析
            for li in tree.xpath('//div[@class="slist"]/ul/li'):
                img_url = li.xpath('./a/img/@src')[0]
                full_img_url = self.base_url + img_url
                print(full_img_url)
                img_name = full_img_url.split('/')[-1]
                full_img_name = os.path.join(self.create_img_dir(), img_name)
                # 开始下载图片
                with open(full_img_name, 'wb') as fs:
                    content = requests.get(url=full_img_url, headers=self.headers).content
                    fs.write(content)
                    print("{}图片下载完成 ".format(img_name))
                    time.sleep(1)


    #生成图片URL,返回每个page组成的列表
    def get_img_url(self,page):
        url_list = [self.url]
        if page == 1 :
            return url_list
        elif page > 1 :
            '''
            https://xxxxxxx/index_3.html
            '''
            for i in range(1,page+1):
                if i == 1 :
                    continue
                multi_url = self.url + "index_{}.html".format(str(page))
                url_list.append(multi_url)
            return url_list


if __name__ == '__main__':
    #下载页数,2页
    page = 2
    #定义类对象
    down_img = DownloadImg()
    url = down_img.get_img_url(2)
    print(url)
    down_img.download_img(url)
    print("图片全部下载完成,程序退出")
相关推荐
往日情怀酿做酒 V17639296388 分钟前
Django基础配置
后端·python·django
向宇it13 分钟前
【unity小技巧】Unity 四叉树算法实现空间分割、物体存储并进行查询和碰撞检测
开发语言·算法·游戏·unity·游戏引擎
我真的太难了啊17 分钟前
学习QT第二天
开发语言·qt·学习
伏虎山真人20 分钟前
QT程序开机自启方案
开发语言·qt
lsx20240629 分钟前
Ruby 模块(Module)
开发语言
豆包MarsCode38 分钟前
我用豆包MarsCode IDE 做了一个 CSS 权重小组件
开发语言·前端·javascript·css·ide·html
铅华尽40 分钟前
Java---JDBC案例--手机信息管理系统
java·开发语言·智能手机
凌虚(失业了求个工作)40 分钟前
RAG 示例:使用 langchain、Redis、llama.cpp 构建一个 kubernetes 知识库问答
人工智能·redis·python·langchain·llama
0zxm1 小时前
01.Django快速入门
数据库·vscode·python·django·sqlite
X 西安1 小时前
第十章JavaScript的应用
开发语言·javascript·ecmascript