爬虫前奏--基于macos的ip代理池构建

文章目录

  • 0.前言
  • 1.准备项目
  • 2.准备环境
      • [2.1 获取项目](#2.1 获取项目)
      • [2.2 docker里面配置redis](#2.2 docker里面配置redis)
        • 前提条件
        • 通过Docker部署Redis步骤
          • [2.2.1 拉取Redis官方镜像](#2.2.1 拉取Redis官方镜像)
          • [2.2.2 运行Redis容器](#2.2.2 运行Redis容器)
          • [2.2.3 验证Redis是否启动成功](#2.2.3 验证Redis是否启动成功)
          • [2.2.4 (可选)采用持久化数据](#2.2.4 (可选)采用持久化数据)
      • [2.3 项目配置](#2.3 项目配置)
  • 3.项目使用

0.前言

如题 ,简而言之 ,这个项目就是防止你爬数据爬太多给你ip封了的。

1.准备项目

1.Proxy_Pool(代理池)项目 是一个用来采集、验证和管理大量代理IP的开源项目,主要目的是为爬虫或其他应用提供高质量、可用的代理IP,从而帮助用户绕过目标网站的IP限制、反爬虫机制,实现更稳定和高效的数据抓取。

复制代码
git clone git@github.com:jhao104/proxy_pool.git

2.Redis 在代理池项目中主要作为高速缓存数据库和队列系统来使用,原因如下:

  • 高速读写性能: 代理池需要频繁插入、读取、更新大量代理IP数据,Redis基于内存,读写速度非常快,适合实时性要求较高的场景。

  • 支持多种数据结构: Redis支持字符串、列表、集合、有序集合等多种数据结构,方便实现代理IP的存储、排序(按速度或评分)、去重等功能。

  • 轻量级且易部署:Redis部署简单,资源占用低,适合搭建高效的代理池服务。

  • 支持过期时间和自动淘汰: 可以为代理IP设置过期时间,自动剔除失效IP。

2.准备环境

2.1 获取项目

复制代码
git clone https://github.com/ZHHUAZH/Proxy_pool_Python312

2.2 docker里面配置redis

在macOS上通过Docker部署Redis,步骤非常简单。下面是详细的操作流程:


前提条件

通过Docker部署Redis步骤
2.2.1 拉取Redis官方镜像

打开终端,执行:

bash 复制代码
docker pull redis

这条命令会从Docker Hub拉取最新的Redis官方镜像。


2.2.2 运行Redis容器

执行以下命令启动Redis容器:

bash 复制代码
docker run -d --name my-redis -p 6379:6379 redis

参数说明:

  • -d:后台运行容器
  • --name my-redis:给容器命名为my-redis,你也可以改成自己喜欢的名字
  • -p 6379:6379:将容器内6379端口映射到宿主机的6379端口,Redis默认端口是6379
  • redis:使用的镜像名称

2.2.3 验证Redis是否启动成功

你可以用两种方式检测:

  • 方式一: 通过Docker命令查看容器状态
bash 复制代码
docker ps

如果看到my-redis容器正在运行,说明启动成功。

  • 方式二: 使用redis-cli连接测试

如果你本机没有安装redis-cli,可以用docker命令进入容器测试:

bash 复制代码
docker exec -it my-redis redis-cli

进入后,执行:

bash 复制代码
ping

如果返回PONG,说明Redis服务正常。


2.2.4 (可选)采用持久化数据

默认容器里的数据是临时的,容器删除后数据会丢失。可以挂载本地目录实现数据持久化:

bash 复制代码
docker run -d --name my-redis -p 6379:6379 -v /path/on/host/redis-data:/data redis redis-server --appendonly yes
  • /path/on/host/redis-data 替换成你mac上一个真实存在的目录路径,用于存放Redis数据快照和AOF文件。
  • redis-server --appendonly yes 表示开启AOF持久化。

2.3 项目配置

3.项目使用

复制代码
import requests

def get_proxy():
    return requests.get("http://127.0.0.1:5010/get/").json()

def delete_proxy(proxy):
    requests.get("http://127.0.0.1:5010/delete/?proxy={}".format(proxy))

# your spider code

def getHtml():
    # ....
    retry_count = 5
    proxy = get_proxy().get("proxy")
    while retry_count > 0:
        try:
            html = requests.get('http://www.example.com', proxies={"http": "http://{}".format(proxy)})
            # 使用代理访问
            return html
        except Exception:
            retry_count -= 1
    # 删除代理池中代理
    delete_proxy(proxy)
    return None
相关推荐
搂着猫睡的小鱼鱼15 小时前
Ozon 商品页数据解析与提取 API
爬虫·php
深蓝电商API16 小时前
住宅代理与数据中心代理在爬虫中的选择
爬虫·python
csdn_aspnet17 小时前
Libvio.link爬虫技术深度解析:反爬机制破解与高效数据抓取
爬虫·反爬·libvio
Trouvaille ~17 小时前
TCP Socket编程实战(三):线程池优化与TCP编程最佳实践
linux·运维·服务器·网络·c++·网络协议·tcp/ip
JoySSLLian19 小时前
手把手教你安装免费SSL证书(附宝塔/Nginx/Apache配置教程)
网络·人工智能·网络协议·tcp/ip·nginx·apache·ssl
猫头虎19 小时前
如何解决 OpenClaw “Pairing required” 报错:两种官方解决方案详解
网络·windows·网络协议·macos·智能路由器·pip·scipy
0思必得019 小时前
[Web自动化] Selenium处理滚动条
前端·爬虫·python·selenium·自动化
vx_biyesheji000120 小时前
豆瓣电影推荐系统 | Python Django 协同过滤 Echarts可视化 深度学习 大数据 毕业设计源码
大数据·爬虫·python·深度学习·django·毕业设计·echarts
!chen21 小时前
LabVIEW TCP Server端工具TCP通信
网络·tcp/ip·labview
郝学胜-神的一滴21 小时前
深入解析C/S模型下的TCP通信流程:从握手到挥手的技术之旅
linux·服务器·c语言·网络·网络协议·tcp/ip