在 Python 中,CPR
(py-cpr
)库用于与 HTTP 代理进行配合,编写爬虫程序是一个常见的任务。你可以通过 CPR
库来发送 HTTP 请求并通过代理服务器来抓取数据。以下是如何使用 CPR
库和 HTTP 代理一起编写爬虫程序的示例。
1、安装 py-cpr
和 requests
库
首先,确保你已安装了 py-cpr
和 requests
库(requests
用于发送 HTTP 请求)。你可以使用以下命令来安装:
pip install py-cpr requests
2、编写爬虫程序
(1) 导入所需模块
javascript
import requests
from cpr import CPR
(2) 设置 HTTP 代理
使用代理时,我们需要设置代理的地址和端口。例如,假设你有一个 HTTP 代理服务,地址为 http://localhost:8080
,你需要通过代理来抓取网页。
makefile
# 设置代理
proxy = {
"http": "http://localhost:8080",
"https": "http://localhost:8080"
}
# 创建 CPR 对象并配置代理
cpr = CPR(proxies=proxy)
(3) 发送 HTTP 请求
你可以使用 requests
或 CPR
来发送请求。如果你使用 requests
发送请求时通过代理,则请求会通过代理服务器发送。
ini
# 使用 requests 库直接发送请求
response = requests.get('https://httpbin.org/ip', proxies=proxy)
# 打印响应内容
print(response.json())
或者,你也可以使用 CPR
库来发送请求,CPR
本质上是对 requests
的封装,它将支持更多代理相关的功能。
ini
# 使用 CPR 发送请求
response = cpr.get('https://httpbin.org/ip')
# 打印响应内容
print(response.json())
在这个例子中,https://httpbin.org/ip
会返回你当前请求的 IP 地址。当使用代理时,返回的 IP 地址应该是代理服务器的地址,而不是你的真实 IP 地址。
(4) 处理 HTTP 响应
在获取响应后,你可以根据需要解析响应数据。例如,如果响应是 JSON 格式,你可以使用 response.json()
来解析。
bash
# 解析并打印 JSON 响应
data = response.json()
print("Your IP via Proxy: ", data)
3、完整示例:使用 HTTP 代理抓取网页
以下是一个完整的 Python 程序,使用 CPR
和 requests
库,通过 HTTP 代理抓取网页内容并显示网页的标题。
python
import requests
from cpr import CPR
# 设置 HTTP 代理
proxy = {
"http": "http://localhost:8080",
"https": "http://localhost:8080"
}
# 创建 CPR 对象并配置代理
cpr = CPR(proxies=proxy)
# 使用 requests 通过代理发送 GET 请求
response = requests.get('https://www.example.com', proxies=proxy)
# 打印响应的 HTML 内容
print(response.text)
# 或者使用 CPR 发送请求并抓取页面内容
cpr_response = cpr.get('https://www.example.com')
# 打印网页内容
print(cpr_response.text)
4、总结
通过上述代码示例,你可以看到如何结合 CPR
和 HTTP 代理来编写爬虫程序。CPR
库封装了 HTTP 请求,提供了方便的接口来通过代理发送请求。你可以根据需求修改代理设置,或者通过 requests
库实现更加复杂的代理配置。
主要步骤:
- 设置代理。
- 使用
requests
或CPR
发送请求。 - 处理 HTTP 响应,解析数据。
这种方法适用于通过代理访问受限资源、绕过防火墙或进行匿名爬取等任务。