Python从指定网页上下载所有图片到本地存储路径(PyCharm实现)

运行前需要准备必要的包,`requests` 用于发起 HTTP 请求,`BeautifulSoup` 来自 bs4 用于解析 HTML,`urljoin` 来自 urllib.parse 用于拼接 URL,以及 `urlretrieve` 来自 urllib.request 用于下载文件。

python 复制代码
import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
from urllib.request import urlretrieve

先定义 download_images 函数,接受 url(包含图片的网页的URL)和 save_dir(保存图像的目录)这两个参数,再检查指定的目录 save_dir 是否不存在,如果不存在,则使用os.makedirs(save_dir) 创建该目录。用 requests.get(url) 发送 HTTP GET 请求到 url 变量中指定的 URL。用 response.raise_for_status() 来检查请求是否成功,否则会引发异常。用 BeautifulSoup 和 html.parser 这个解析器来解析响应内容。用 soup.find_all('img') 找到 HTML 内容中的所有图像标签。

python 复制代码
def download_images(url, save_dir):
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    response = requests.get(url)#发送http请求
    response.raise_for_status()  # 如果请求失败,抛出异常
    soup = BeautifulSoup(response.text, 'html.parser')#解析界面
    image_links = soup.find_all('img')

在函数中遍历找到的每个图像标签,并提取包含图像 URL 的 src 属性。如果图像 URL 是相对路径,则使用 urljoin(url, img_url) 将其转换为绝对 URL。图像名称通过提取 URL 的最后一部分(img_url.split('/')[-1])并与保存目录路径连接而确定,使用 os.path.join、urlretrieve(img_url, img_name) 从 URL 下载图像,并将其保存到指定目录。

python 复制代码
    for img in image_links:
        img_url = img.get('src')
        if not img_url.startswith(('http://','https://')):#相对转绝对路径
            img_url = urljoin(url, img_url)
        img_name = os.path.join(save_dir, img_url.split('/')[-1])
        urlretrieve(img_url, img_name)
        print(f"Downloaded: {img_name}")

最后用实际要从中提取图像的网页的 URL 和要保存图像的目录路径替换占位符 `"https://"` 和 `"D:\"`。

总代码如下:

python 复制代码
import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
from urllib.request import urlretrieve

def download_images(url, save_dir):
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    response = requests.get(url)#发送http请求
    response.raise_for_status()  # 如果请求失败,抛出异常
    soup = BeautifulSoup(response.text, 'html.parser')#解析界面
    image_links = soup.find_all('img')
    for img in image_links:
        img_url = img.get('src')
        if not img_url.startswith(('http://','https://')):#相对转绝对路径
            img_url = urljoin(url, img_url)
        img_name = os.path.join(save_dir, img_url.split('/')[-1])
        urlretrieve(img_url, img_name)
        print(f"Downloaded: {img_name}")

url = "https://"#你要爬取的网页
save_dir = "D:\"#存储路径
download_images(url, save_dir)
相关推荐
Bruce_kaizy9 分钟前
c++单调数据结构————单调栈,单调队列
开发语言·数据结构·c++
阿坤带你走近大数据14 分钟前
Python基础知识-数据结构篇
开发语言·数据结构·python
froginwe1114 分钟前
AJAX 实时搜索:技术原理与实现方法
开发语言
小智RE0-走在路上18 分钟前
Python学习笔记(7)--集合,字典,数据容器总结
笔记·python·学习
沃斯堡&蓝鸟19 分钟前
DAY 29 异常处理
python
发光小北19 分钟前
SG-CAN (FD) NET-210(双通道 CAN (FD) 转以太网网关)特点与功能介绍
开发语言·网络·php
Direction_Wind22 分钟前
抓包的使用与讲解
python
职业码农NO.123 分钟前
智能体推理范式: Plan-and-Execute(规划与执行)
人工智能·python·数据分析·系统架构·知识图谱·agent·集成学习
liangshanbo12151 小时前
深入理解 Model Context Protocol (MCP):从原理到实践
开发语言·qt·microsoft
爱笑的眼睛111 小时前
超越`cross_val_score`:深入剖析Scikit-learn交叉验证API的设计哲学与高阶实践
java·人工智能·python·ai