爬虫学习笔记-站长素材网站图片下载

1. 导入必要的模块:

  • `urllib.request`:用于发送HTTP请求和获取响应。

  • `urllib.parse`:用于解析URL。

  • `lxml.etree`:用于解析HTML内容。

2. 创建一个`create_request`函数

该函数接受一个参数`page`表示页面编号。根据`page`的值,构造相应的URL,并设置请求头信息。

3. 创建一个`get_content`函数

该函数接受一个参数`request`表示HTTP请求对象。使用`urllib.request.urlopen`发送请求并获取响应。将响应内容以UTF-8编码解码,并返回结果。

4. 创建一个`download`函数

该函数接受一个参数`content`表示网页内容。使用`lxml.etree.HTML`方法解析内容为树形结构。使用XPath表达式提取图片名称和图片链接,并循环下载图片。

5. 创建`if name == 'main':`

首先读取用户输入的开始页和结束页。然后,使用循环遍历每一页的页面编号,并依次执行以下步骤:

  • 调用`create_request`函数创建请求对象。

  • 调用`get_content`函数获取网页内容。

  • 调用`download`函数下载图片。

注意,代码中的`urllib.request.urlretrieve`方法用于下载图片,需要提前创建文件夹,将图片保存到指定路径。

源码

python 复制代码
import urllib.request
import urllib.parse
from lxml import etree

#第一页 https://sc.chinaz.com/tupian/index.html
#第二页 https://sc.chinaz.com/tupian/index_2.html

def create_request(page):
    # 判断是否为第一页
    if page == 1:
        url = 'https://sc.chinaz.com/tupian/index.html'
    else:
        url = 'https://sc.chinaz.com/tupian/index_'+str(page)+'.html'
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
    }
    request = urllib.request.Request(url=url,headers=headers)
    return request

def get_content(request):
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    # print(content)
    return content

def download(content):
    # 解析获取的html代码
    tree = etree.HTML(content)
    name_list = tree.xpath('//div[@class="item"]/img/@alt')
    # # 测试获取的数据
    # for n in name_list:
    #     print(n)
    img_list = tree.xpath('//@data-original')
    # for m in img_list:
    #     print(m)
    # 拼接保存的url,文件名
    for i in range(len(name_list)):
        name = name_list[i]
        src = img_list[i]
        url = 'https:'+src

        urllib.request.urlretrieve(url=url,filename='./img/'+name+'.jpg')

if __name__ == '__main__':
    start_page = int(input('请输入开始页'))
    end_page = int(input('请输入结束页'))
    for page in range(start_page,end_page+1):
        request = create_request(page)
        content = get_content(request)
        download(content)
相关推荐
2501_926978339 小时前
“LLM的智能本质--AGI的可能路径--人类的意识本质”三者的统一基底(5.0理论解读)
人工智能·经验分享·笔记·深度学习·机器学习·ai写作·agi
لا معنى له9 小时前
WAM与AC-WM:具身智能时代的世界动作模型与动作条件世界模型
人工智能·笔记·学习
薛先生_09910 小时前
js学习语法第一天
开发语言·javascript·学习
Wilber的技术分享11 小时前
【LeetCode高频手撕题 2】面试中常见的手撕算法题(小红书)
笔记·算法·leetcode·面试
愚昧之山绝望之谷开悟之坡11 小时前
合格境外投资者
笔记
寒秋花开曾相惜13 小时前
(学习笔记)3.8 指针运算(3.8.3 嵌套的数组& 3.8.4 定长数组)
java·开发语言·笔记·学习·算法
是翔仔呐14 小时前
第11章 显示外设驱动:I2C协议OLED屏、SPI协议LCD屏字符/图片/中文显示
c语言·开发语言·stm32·单片机·嵌入式硬件·学习·gitee
_李小白14 小时前
【AI大模型学习笔记之平台篇】第五篇:Trae常用模型介绍与性能对比
人工智能·笔记·学习
承渊政道14 小时前
【优选算法】(实战体会位运算的逻辑思维)
数据结构·c++·笔记·学习·算法·leetcode·visual studio
AI-Ming14 小时前
程序员转行学习 AI 大模型: 踩坑记录:服务器内存不够,程序被killed
服务器·人工智能·python·gpt·深度学习·学习·agi