批量爬取百度图片关键词搜索得到的图片

  1. 将搜索关键字写到keywords.txt中,设置从哪行开始搜索爬取
  2. 调整尺寸,做到统一
  3. 脚本而已,用的BaiduSpider
python 复制代码
from PIL import Image
import os
import requests
from baiduspider import BaiduSpider
from requests.exceptions import Timeout
import time
# 定义起始行索引    
start_query_index = 16

# 读取关键词列表,从指定行开始
with open('ketwords.txt', 'r', encoding='utf-8') as file:
    for _ in range(start_query_index - 1):
        next(file)
    queries = file.read().splitlines()

save_dir = "downloaded_images"
if not os.path.exists(save_dir):
    os.makedirs(save_dir)

# 循环处理每一个查询词
for query_index, query in enumerate(queries, start=start_query_index):
    print(f"Processing query {query_index}: {query}")
    results = BaiduSpider().search_pic(query=query)
    
    query_save_dir = os.path.join(save_dir, str(query_index))
    if not os.path.exists(query_save_dir):
        os.makedirs(query_save_dir)
    
    # 对于每个查询,重置文件计数器
    file_counter = 1
    
    for image_index, result in enumerate(results):
        url = result.url
        print(f"Downloading image {image_index + 1} for query {query_index}: {url}")
        try:
            response = requests.get(url, stream=True, timeout=5, verify=False)  # 注意这里仍然使用verify=False
            if response.status_code == 200:
                # 使用固定的临时文件名
                temp_file_path = os.path.join(query_save_dir, 'temp.jpg')
                
                with open(temp_file_path, 'wb') as file:
                    for chunk in response.iter_content(1024):
                        file.write(chunk)
                
                print(f"Image downloaded temporarily.")
                
                # 加载图片并调整尺寸
                img = Image.open(temp_file_path)
                img_resized = img.resize((1920, 1080), Image.Resampling.LANCZOS)  # 使用Image.Resampling.LANCZOS
                
                # 生成最终文件名
                file_name = f'image_{file_counter}.jpg'
                final_file_path = os.path.join(query_save_dir, file_name)
                
                # 保存调整尺寸后的图片到最终文件名
                img_resized.save(final_file_path)
                
                # 清理临时文件
                os.remove(temp_file_path)
                
                print(f"Image {file_counter} processed and saved successfully.")
                
                file_counter += 1  # 文件计数器递增
            else:
                print(f"Failed to download image {image_index + 1} for query {query_index}. Status code: {response.status_code}")
        except Timeout:
            print(f"Request timed out after 5 seconds for image {image_index + 1} of query {query_index}. Skipping...")
        except Exception as e:
            print(f"An error occurred while downloading image {image_index + 1} for query {query_index}: {str(e)}")
    
    time.sleep(60)
相关推荐
wenxin-6 分钟前
NS3网络模拟器中如何利用Gnuplot工具像MATLAB一样绘制各类图形?
开发语言·matlab·画图·ns3·lr-wpan
数据小爬虫@2 小时前
深入解析:使用 Python 爬虫获取苏宁商品详情
开发语言·爬虫·python
健胃消食片片片片2 小时前
Python爬虫技术:高效数据收集与深度挖掘
开发语言·爬虫·python
王老师青少年编程3 小时前
gesp(C++五级)(14)洛谷:B4071:[GESP202412 五级] 武器强化
开发语言·c++·算法·gesp·csp·信奥赛
一只小bit4 小时前
C++之初识模版
开发语言·c++
王磊鑫5 小时前
C语言小项目——通讯录
c语言·开发语言
钢铁男儿5 小时前
C# 委托和事件(事件)
开发语言·c#
Ai 编码助手5 小时前
在 Go 语言中如何高效地处理集合
开发语言·后端·golang
喜-喜5 小时前
C# HTTP/HTTPS 请求测试小工具
开发语言·http·c#
ℳ₯㎕ddzོꦿ࿐5 小时前
解决Python 在 Flask 开发模式下定时任务启动两次的问题
开发语言·python·flask