Python3网络爬虫开发实战（9）代理的使用（需补充代理池的构建）

文章目录

一、代理的设置
- [1.1 urllib 的代理设置](#1.1 urllib 的代理设置)
- [1.2 requests 的代理设置](#1.2 requests 的代理设置)
- [1.3 httpx 的代理设置](#1.3 httpx 的代理设置)
- [1.4 aiohttp 的代理设置](#1.4 aiohttp 的代理设置)
- [1.4 Selenium 的代理设置](#1.4 Selenium 的代理设置)
- [1.6 Playwright 的代理设置](#1.6 Playwright 的代理设置)
二、代理池的构建和维护
- [2.1 代理池的模块构成](#2.1 代理池的模块构成)
- [2.2 代理池的实现](#2.2 代理池的实现)

网站为了避免爬虫采集数据可能会采取一些反爬虫的措施，例如服务器会检测某个 IP 在单位时间内的请求次数，如果这个次数超过了指定的阈值，就直接拒绝服务器，并返回一些错误信息，这种情况称为 封IP；

封IP 的流程是：开始可以正常运行，正常爬取数据，一段时间过后出现错误，比如返回 403 Forbidden，这时打开网页，可能会看到 "您的 IP 访问频率太高" 这样的提示，或者跳出一个验证码让我们识别，通过之后才可以正常访问，但是过一会儿又会变成这样；

代理通过将 IP 伪装起来，让服务器识别不出是由我们本机发起的请求，就可以成功防止封 IP了；

一、代理的设置

代理是 IP 地址和端口的组合，格式是 <ip>:<port>，如果代理需要访问认证，则还需要额外的用户名和密码两个信息；

1.1 urllib 的代理设置

首先我们以最基础的 urllib 为例，来看一下代理的设置方法，代码如下：

python 复制代码

from urllib.error import URLError
from urllib.request import ProxyHandler, build_opener

proxy = '127.0.0.1:9743'
proxy_handler = ProxyHandler({
    'http': 'http://' + proxy,
    'https': 'https://' + proxy
})
opener = build_opener(proxy_handler)
try:
    response = opener.open('http://httpbin.org/get')
    print(response.read().decode('utf-8'))
except URLError as e:
    print(e.reason)

运行结果如下：

json 复制代码

{"args": {}, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Connection": "close", 
    "Host": "httpbin.org", 
    "User-Agent": "Python-urllib/3.6"
  }, 
  "origin": "106.185.45.153", 
  "url": "http://httpbin.org/get"
}

这里我们需要借助 ProxyHandler 设置代理，参数是字典类型，键名为协议类型，键值是代理。注意，此处代理前面需要加上协议，即 http 或者 https。当请求的链接是 http 协议的时候，ProxyHandler 会调用 http 代理。当请求的链接是 https 协议的时候，会调用 https 代理。此处生效的代理是：http://127.0.0.1:9743。

创建完 ProxyHandler 对象之后，我们需要利用 build_opener 方法传入该对象来创建一个 Opener，这样就相当于此 Opener 已经设置好代理了。接下来直接调用 Opener 对象的 open 方法，即可访问我们所想要的链接。

运行输出结果是一个 JSON，它有一个字段 origin，标明了客户端的 IP。验证一下，此处的 IP 确实为代理的 IP，并不是真实的 IP。这样我们就成功设置好代理，并可以隐藏真实 IP 了。

如果遇到需要认证的代理，我们可以用如下的方法设置：

python 复制代码

from urllib.error import URLError
from urllib.request import ProxyHandler, build_opener

proxy = 'username:password@127.0.0.1:9743'
proxy_handler = ProxyHandler({
    'http': 'http://' + proxy,
    'https': 'https://' + proxy
})
opener = build_opener(proxy_handler)
try:
    response = opener.open('http://httpbin.org/get')
    print(response.read().decode('utf-8'))
except URLError as e:
    print(e.reason)

这里改变的只是 proxy 变量，只需要在代理前面加入代理认证的用户名密码即可，其中 username 就是用户名，password 为密码，例如 username 为 foo，密码为 bar，那么代理就是 foo:bar@127.0.0.1:9743。

如果代理是 SOCKS5 类型，那么可以用如下方式设置代理：

python 复制代码

import socks
import socket
from urllib import request
from urllib.error import URLError

socks.set_default_proxy(socks.SOCKS5, '127.0.0.1', 9742)
socket.socket = socks.socksocket
try:
    response = request.urlopen('http://httpbin.org/get')
    print(response.read().decode('utf-8'))
except URLError as e:
    print(e.reason)

此处需要一个 socks 模块，可以通过如下命令安装：

复制代码

pip3 install PySocks

本地我有一个 SOCKS5 代理，运行在 9742 端口，运行成功之后和上文 HTTP 代理输出结果是一样的：

json 复制代码

{"args": {}, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Connection": "close", 
    "Host": "httpbin.org", 
    "User-Agent": "Python-urllib/3.6"
  }, 
  "origin": "106.185.45.153", 
  "url": "http://httpbin.org/get"
}

结果的 origin 字段同样为代理的 IP。现在，代理设置成功。

1.2 requests 的代理设置

对于 requests 来说，代理设置更加简单，我们只需要传入 proxies 参数即可。

还是以上例中的代理为例，我们来看下 requests 的代理的设置：

python 复制代码

import requests

proxy = '127.0.0.1:9743'
proxies = {
    'http': 'http://' + proxy,
    'https': 'https://' + proxy,
}
try:
    response = requests.get('http://httpbin.org/get', proxies=proxies)
    print(response.text)
except requests.exceptions.ConnectionError as e:
    print('Error', e.args)

运行结果：

json 复制代码

{"args": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Connection": "close", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.18.1"
  }, 
  "origin": "106.185.45.153", 
  "url": "http://httpbin.org/get"
}

可以发现，requests 的代理设置比 urllib 简单很多，它只需要构造代理字典，然后通过 proxies 参数即可，而不需要重新构建 Opener。

其运行结果的 origin 也是代理的 IP，这证明代理已经设置成功。

如果代理需要认证，同样在代理的前面加上用户名密码即可，代理的写法就变成如下所示：

python 复制代码

proxy = 'username:password@127.0.0.1:9743'

和 urllib 一样，这里只需要将 username 和 password 替换即可。

如果需要使用 SOCKS5 代理，则可以使用如下方式来设置：

python 复制代码

import requests

proxy = '127.0.0.1:9742'
proxies = {
    'http': 'socks5://' + proxy,
    'https': 'socks5://' + proxy
}
try:
    response = requests.get('http://httpbin.org/get', proxies=proxies)
    print(response.text)
except requests.exceptions.ConnectionError as e:
    print('Error', e.args)

在这里，我们需要额外安装一个模块，这个模块叫作requests[socks]，命令如下所示：

复制代码

pip3 install "requests[socks]"

运行结果是完全相同的：

json 复制代码

{"args": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Connection": "close", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.18.1"
  }, 
  "origin": "106.185.45.153", 
  "url": "http://httpbin.org/get"
}

另外，还有一种设置方式，和 urllib 中的方法相同，使用 socks 模块，也需要像上文一样安装 socks 库。这种设置方法如下所示：

python 复制代码

import requests
import socks
import socket

socks.set_default_proxy(socks.SOCKS5, '127.0.0.1', 9742)
socket.socket = socks.socksocket
try:
    response = requests.get('http://httpbin.org/get')
    print(response.text)
except requests.exceptions.ConnectionError as e:
    print('Error', e.args)

使用这种方法也可以设置 SOCKS5 代理，运行结果完全相同。相比第一种方法，此方法是全局设置。我们可以在不同情况下选用不同的方法。

1.3 httpx 的代理设置

httpx 的用法本身就与 requests 的非常相似，所以也是通过 proxies 参数设置的代理，不同之处在于 proxies 参数的键名不能再是 http 和 https，需要改为 \http:// 和 \https://；

设置 HTTP 代理的方式如下

python 复制代码

import httpx

proxy = '127.0.0.1:7890'
proxies = {
	"http://": 'http://' + proxy,
	"https://": 'http://' + proxy,
}

with httpx.Client(proxies=proxies) as client:
	response = client.get('https://www.httpbin.org/get')
	print(response.text)

对于需要认证的代理，也是在代理地址的前面加上用户名和密码，在使用的使用替换 usename 和 password 字段；

python 复制代码

proxy = 'username:password@127.0.0.1:7890'

对于 SOCKS 代理，需要安装 httpx-socks[asyncio] 库，安装方法如下

python 复制代码

pip3 install "httpx-socks[asyncio]"

与此同时，我们需要设置同步模式和异步模式，同步模式的设置方法如下：

python 复制代码

import httpx
from httpx_socks import SyncProxyTransport

transport = SyncProxyTransport.from_url('sock5://127.0.0.1:7891')

with httpx.Client(transport=transport) as client:
	response = client.get('https://www.httpbin.org/get')
	print(response.text)

异步模式的设置方法如下：

python 复制代码

import httpx
import asyncio
from httpx_socks import AsyncProxyTransport

transport = AsyncProxyTransport.from_url('sock5://127.0.0.1:7891')

async def main():
	async with httpx.AsyncClient(transport=transport) as client:
		response = await client.get('https://www.httpbin.org/get')
		print(response.text)

if __name__ == '__main__':
	asyncio.get_event_loop().run_until_complete(main())

和同步模式不同，此时我们用的 Transport 对象是 AsyncProxyTransport 而不是 SyncProxyTransport，同时需要将 Client 对象更改为 AsyncClient 对象，其他的和同步模式一样，运行结果也是一样的；

1.4 aiohttp 的代理设置

对于 aiohttp，可以通过 proxy 参数直接设置代理，http 代理的设置方式如下：

python 复制代码

import asyncio
import aiohttp

proxy = 'http://127.0.0.1:7890'

async def main():
	async with aiohttp.ClientSession() as session:
		async with session.get('https://www.httpbin.org/get', proxy=proxy) as response:
			print(await response.text())

if __name__ == '__main__':
	asyncio.get_event_loop().run_until_complete(main())

如果需要代理认证，就把代理地址改一下

python 复制代码

proxy = 'http://username:password@127.0.0.1:7890'

对于 SOCKS 代理，需要安装一个支持库 aiohttp-socks ，安装命令如下

shell 复制代码

pip3 install aiohttp-socks

可以借助这个库的 ProxyConnector 方法来设置 SOCKS 代理，代码如下：

python 复制代码

import asyncio
import aiohttp
from aiohttp_sock5 import ProxyConnector

connector = ProxyConnector.from_url('socks5://127.0.0.1:7890')
async def main():
	async with aiohttp.ClientSession(connector=connector) as session:
		async with session.get('http://www.httpbin.org/get') as response:
			print(await response.text())

if __name__ == '__main__':
	asyncio.get_event_loop().run_until_complete(main())

运行结果和之前一样；

1.4 Selenium 的代理设置

Selenium 同样也可以设置代理，对于 Chrome 来说，用 Selenium 设置代理的方法也非常简单，对于无认证的代理，设置方法如下所示：

python 复制代码

from selenium import webdriver

proxy = '127.0.0.1:9743'
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--proxy-server=http://' + proxy)
browser = webdriver.Chrome(chrome_options=chrome_options)
browser.get('http://httpbin.org/get')

在这里我们通过 ChromeOptions 来设置代理，在创建 Chrome 对象的时候用 chrome_options 参数传递即可。

运行代码之后便会弹出一个 Chrome 浏览器，我们访问目标链接之后输出结果如下所示：

json 复制代码

{"args": {}, 
  "headers": {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8", 
    "Accept-Encoding": "gzip, deflate", 
    "Accept-Language": "zh-CN,zh;q=0.8", 
    "Connection": "close", 
    "Host": "httpbin.org", 
    "Upgrade-Insecure-Requests": "1", 
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36"
  }, 
  "origin": "106.185.45.153", 
  "url": "http://httpbin.org/get"
}

代理设置成功，origin 同样为代理 IP 的地址。如果代理是认证代理，则设置方法相对比较麻烦，设置方法如下所示：

python 复制代码

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import zipfile

ip = '127.0.0.1'
port = 7890
username = 'foo'
password = 'bar'

manifest_json = """{"version":"1.0.0","manifest_version": 2,"name":"Chrome Proxy","permissions": ["proxy","tabs","unlimitedStorage","storage","<all_urls>","webRequest","webRequestBlocking"],"background": {"scripts": ["background.js"]
    }
}
"""background_js ="""
var config = {
        mode: "fixed_servers",
        rules: {
          singleProxy: {
            scheme: "http",
            host: "%(ip) s",
            port: %(port) s
          }
        }
      }

chrome.proxy.settings.set({value: config, scope: "regular"}, function() {});

function callbackFn(details) {
    return {
        authCredentials: {username: "%(username) s",
            password: "%(password) s"
        }
    }
}

chrome.webRequest.onAuthRequired.addListener(
            callbackFn,
            {urls: ["<all_urls>"]},
            ['blocking']
)
""" % {'ip': ip, 'port': port, 'username': username, 'password': password}

plugin_file = 'proxy_auth_plugin.zip'
with zipfile.ZipFile(plugin_file, 'w') as zp:
    zp.writestr("manifest.json", manifest_json)
    zp.writestr("background.js", background_js)
chrome_options = Options()
chrome_options.add_argument("--start-maximized")
chrome_options.add_extension(plugin_file)
browser = webdriver.Chrome(chrome_options=chrome_options)
browser.get('http://httpbin.org/get')

这里需要在本地创建一个 manifest.json 配置文件和 background.js 脚本来设置认证代理。运行代码之后本地会生成一个 proxy_auth_plugin.zip 文件来保存当前配置。

得到运行结果和上面一样，origin 字段为客户端的 IP，证明代理设置成功；SOCKS 代理的设置方式也比较简单，把对应的协议修改为 socks5 即可，如无密码认证的代理设置方法为：

python 复制代码

from selenium import webdriver

proxy = '127.0.0.1:7890'
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--proxy-server=socks5://' + proxy)
browser = webdriver.Chrome(chrome_options=chrome_options)
browser.get('http://httpbin.org/get')

运行结果和上面一样；

1.6 Playwright 的代理设置

相对 Selenium 和 Pyppeteer，Playwright 的代理设置更加的方便，因为其预留了一个 proxy 参数，在启动的时候就可以设置。

对于 HTTP / SOCKS 代理来说，可以这样设置

python 复制代码

from playwright.sync_api import sync_playwright

with sync_playwright() as p:
	browser = p.Chromium.launch(proxy:{
		'server': 'http://127.0.0.1:7890',	
		# 'server': 'socks5://127.0.0.1:7890',	
	})
	page = browser.new_page()
	page.goto('http://www.httpbin.org/get')
	print(page.content())
	browser.close()

二、代理池的构建和维护

2.1 代理池的模块构成

基本模块分为 4 块：存储模块、获取模块、检测模块、接口模块。

![[9-1.jpg]]

存储模块：负责存储抓取下来的代理。首先要保证代理不重复，要标识代理的可用情况，还要动态实时处理每个代理，所以一种比较高效和方便的存储方式就是使用 Redis 的 Sorted Set，即有序集合。
获取模块：需要定时在各大代理网站抓取代理。代理可以是免费公开代理也可以是付费代理，代理的形式都是 IP 加端口，此模块尽量从不同来源获取，尽量抓取高匿代理，抓取成功之后将可用代理保存到数据库中。
检测模块：需要定时检测数据库中的代理。这里需要设置一个检测链接，最好是爬取哪个网站就检测哪个网站，这样更加有针对性，如果要做一个通用型的代理，那可以设置百度等链接来检测。另外，我们需要标识每一个代理的状态，如设置分数标识，100 分代表可用，分数越少代表越不可用。检测一次，如果代理可用，我们可以将分数标识立即设置为 100 满分，也可以在原基础上加 1 分；如果代理不可用，可以将分数标识减 1 分，当分数减到一定阈值后，代理就直接从数据库移除。通过这样的标识分数，我们就可以辨别代理的可用情况，选用的时候会更有针对性。
接口模块：需要用 API 来提供对外服务的接口。其实我们可以直接连接数据库来取对应的数据，但是这样就需要知道数据库的连接信息，并且要配置连接，而比较安全和方便的方式就是提供一个 Web API 接口，我们通过访问接口即可拿到可用代理。另外，由于可用代理可能有多个，那么我们可以设置一个随机返回某个可用代理的接口，这样就能保证每个可用代理都可以取到，实现负载均衡。

2.2 代理池的实现

文章中的实现在 Github 上创建了项目：Python3WebSpider/ProxyPool: An Efficient ProxyPool with Getter, Tester and Server (github.com)

其主要项目在 ProxyPool 中的 proxypool 文件夹中，

TodoList

Python3网络爬虫开发实战（9）代理的使用 （需补充代理池的构建）

文章目录

一、代理的设置

1.1 urllib 的代理设置

1.2 requests 的代理设置

1.3 httpx 的代理设置

1.4 aiohttp 的代理设置

1.4 Selenium 的代理设置

1.6 Playwright 的代理设置

二、代理池的构建和维护

2.1 代理池的模块构成

2.2 代理池的实现

Python3网络爬虫开发实战（9）代理的使用（需补充代理池的构建）