Python爬虫实战:图片爬取与保存

引言:

在本文中,我们将学习如何使用Python**++创建一个简单的图片爬虫++**。

我们将**++利用requests库++** 来发送HTTP 请求,++BeautifulSoup++ 来解析HTML页面,以及**os** 和**shutil**库来下载和保存图片。通过这个教程,你将学会如何爬取网页上的图片并保存到本地。

目录

一、准备工作

在开始之前,请确保你已经安装了Python,并且安装了以下库:

你可以使用以下命令来安装这些库:

二、代码实现

三、代码解析



一、准备工作

在开始之前,请确保你已经安装了Python,并且安装了以下库:
  • requests:++用于发送HTTP请求++
  • beautifulsoup4:++用于解析HTML页面++
你可以使用以下命令来安装这些库:
bash 复制代码
pip install requests beautifulsoup4

二、代码实现

python 复制代码
import os  
import requests  
from bs4 import BeautifulSoup  
from urllib.parse import urljoin  
from urllib.request import urlretrieve  
  
def download_images(url, save_dir):  
    """  
    下载指定网页上的所有图片并保存到本地文件夹  
  
    :param url: 目标网页的URL  
    :param save_dir: 图片保存的目录  
    """  
    # 创建保存图片的目录  
    if not os.path.exists(save_dir):  
        os.makedirs(save_dir)  
  
    # 发送HTTP请求  
    response = requests.get(url)  
    response.raise_for_status()  # 如果请求失败,抛出异常  
  
    # 使用BeautifulSoup解析页面  
    soup = BeautifulSoup(response.text, 'html.parser')  
  
    # 查找所有的图片链接  
    image_links = soup.find_all('img')  
  
    # 下载并保存图片  
    for img in image_links:  
        img_url = img.get('src')  
  
        # 如果图片链接是相对路径,则将其转换为绝对路径  
        if not img_url.startswith(('http://', 'https://')):  
            img_url = urljoin(url, img_url)  
  
        # 下载图片  
        img_name = os.path.join(save_dir, img_url.split('/')[-1])  
        urlretrieve(img_url, img_name)  
  
        print(f"Downloaded: {img_name}")  
  
# 使用示例  
url = "https://example.com"  # 替换为你要爬取的网页的URL  
save_dir = "images"  # 图片保存的目录  
download_images(url, save_dir)

三、代码解析

  • 导入库 :首先,我们导入了所需的库,包括++osrequestsBeautifulSoupurllib.parse++ 和++urllib.request++。
  • 定义函数 :我们定义了一个名为download_images的函数,它接受两个参数++:url(目标网页的URL++ )和++save_dir(图片保存的目录)++。
  • 创建保存目录:如果指定的保存目录不存在,我们将创建它。
  • 发送HTTP请求 :使用**++requests.get++方法发送HTTP** 请求,并使用response.raise_for_status检查请求是否成功。
  • 解析页面 :使用**BeautifulSoup解析HTML页面,并查找所有的<img>**标签,以获取图片链接。
  • 下载并保存图片 :遍历每个图片链接,将其转换为绝对路径(如果需要),并使用**urlretrieve**方法下载图片然后,将图片保存到指定的目录,并打印出下载的文件名。
  • 使用示例:最后,我们提供了一个使用示例,包括目标网页的URL和图片保存的目录。

四、注意事项

  • 在使用爬虫时,请确保遵守目标网站的robots.txt文件和使用条款,并尊重他人的版权和隐私。
  • 不要对网站造成过大的压力或进行恶意爬取。
  • 可以根据需要进一步扩展此代码,例如增加错误处理、添加代理支持、限制并发请求数、使用**++异步IO++**等。

通过本文的学习,你已经掌握了如何使用Python创建一个简单的图片爬虫。你可以根据自己的需求进一步扩展和优化这个爬虫。记得在使用爬虫时要遵守相关规定和法律法规,尊重他人的权益。

相关推荐
猫头虎9 小时前
如何解决 pip install -r requirements.txt extras 语法 ‘package[extra’ 缺少 ‘]’ 解析失败问题
开发语言·python·开源·beautifulsoup·virtualenv·pandas·pip
zhangfeng11339 小时前
R语言 读取tsv的三种方法 ,带有注释的tsv文件
开发语言·r语言·生物信息
eqwaak09 小时前
动态图表导出与视频生成:精通Matplotlib Animation与FFmpeg
开发语言·python·ffmpeg·音视频·matplotlib
刘新明19899 小时前
Frida辅助分析OLLVM虚假控制流程(下)
java·开发语言·前端
第二只羽毛10 小时前
重载和继承的实践
java·开发语言
AndrewHZ10 小时前
【图像处理基石】GIS图像处理入门:4个核心算法与Python实现(附完整代码)
图像处理·python·算法·计算机视觉·gis·cv·地理信息系统
光军oi10 小时前
全栈开发杂谈————JAVA微服务全套技术栈详解
java·开发语言·微服务
帮帮志10 小时前
目录【系列文章目录】-(关于帮帮志,关于作者)
java·开发语言·python·链表·交互
qiuiuiu41311 小时前
正点原子RK3568学习日记-GIT
linux·c语言·开发语言·单片机
草莓熊Lotso11 小时前
《C++ STL list 完全指南:从基础操作到特性对比,解锁链表容器高效用法》
开发语言·c++·list