批量爬取百度图片关键词搜索得到的图片

  1. 将搜索关键字写到keywords.txt中,设置从哪行开始搜索爬取
  2. 调整尺寸,做到统一
  3. 脚本而已,用的BaiduSpider
python 复制代码
from PIL import Image
import os
import requests
from baiduspider import BaiduSpider
from requests.exceptions import Timeout
import time
# 定义起始行索引    
start_query_index = 16

# 读取关键词列表,从指定行开始
with open('ketwords.txt', 'r', encoding='utf-8') as file:
    for _ in range(start_query_index - 1):
        next(file)
    queries = file.read().splitlines()

save_dir = "downloaded_images"
if not os.path.exists(save_dir):
    os.makedirs(save_dir)

# 循环处理每一个查询词
for query_index, query in enumerate(queries, start=start_query_index):
    print(f"Processing query {query_index}: {query}")
    results = BaiduSpider().search_pic(query=query)
    
    query_save_dir = os.path.join(save_dir, str(query_index))
    if not os.path.exists(query_save_dir):
        os.makedirs(query_save_dir)
    
    # 对于每个查询,重置文件计数器
    file_counter = 1
    
    for image_index, result in enumerate(results):
        url = result.url
        print(f"Downloading image {image_index + 1} for query {query_index}: {url}")
        try:
            response = requests.get(url, stream=True, timeout=5, verify=False)  # 注意这里仍然使用verify=False
            if response.status_code == 200:
                # 使用固定的临时文件名
                temp_file_path = os.path.join(query_save_dir, 'temp.jpg')
                
                with open(temp_file_path, 'wb') as file:
                    for chunk in response.iter_content(1024):
                        file.write(chunk)
                
                print(f"Image downloaded temporarily.")
                
                # 加载图片并调整尺寸
                img = Image.open(temp_file_path)
                img_resized = img.resize((1920, 1080), Image.Resampling.LANCZOS)  # 使用Image.Resampling.LANCZOS
                
                # 生成最终文件名
                file_name = f'image_{file_counter}.jpg'
                final_file_path = os.path.join(query_save_dir, file_name)
                
                # 保存调整尺寸后的图片到最终文件名
                img_resized.save(final_file_path)
                
                # 清理临时文件
                os.remove(temp_file_path)
                
                print(f"Image {file_counter} processed and saved successfully.")
                
                file_counter += 1  # 文件计数器递增
            else:
                print(f"Failed to download image {image_index + 1} for query {query_index}. Status code: {response.status_code}")
        except Timeout:
            print(f"Request timed out after 5 seconds for image {image_index + 1} of query {query_index}. Skipping...")
        except Exception as e:
            print(f"An error occurred while downloading image {image_index + 1} for query {query_index}: {str(e)}")
    
    time.sleep(60)
相关推荐
阿珊和她的猫20 分钟前
autofit.js: 自动调整HTML元素大小的JavaScript库
开发语言·javascript·html
喜欢吃燃面40 分钟前
C++算法竞赛:位运算
开发语言·c++·学习·算法
传奇开心果编程41 分钟前
【传奇开心果系列】Flet框架实现的家庭记账本示例自定义模板
python·学习·ui·前端框架·自动化
草莓熊Lotso43 分钟前
《详解 C++ Date 类的设计与实现:从运算符重载到功能测试》
开发语言·c++·经验分享·笔记·其他
谱写秋天1 小时前
Qt 5.5 的安装与配置(使用 VSCode编辑)
开发语言·vscode·qt
项目申报小狂人1 小时前
算法应用上新!自适应更新策略差分进化算法求解球形多飞行器路径规划问题,附完整MATLAB代码
开发语言·算法·matlab
王者鳜錸2 小时前
PYTHON让繁琐的工作自动化-PYTHON基础
python·microsoft·自动化
key_Go2 小时前
7.Ansible自动化之-实施任务控制
python·ansible·numpy
阿珊和她的猫5 小时前
v-scale-scree: 根据屏幕尺寸缩放内容
开发语言·前端·javascript