一、引言:为什么要自定义HTTP客户端?
在Python开发中,我们常用requests库处理HTTP请求,但在某些场景下,自定义HTTP客户端更具优势。12306抢票项目作为一个对网络请求有特殊要求的系统,选择了自定义HTTPClient类来管理网络请求。本文将深入分析该项目中HTTPClient的实现细节,探讨会话管理、Cookie处理等核心功能。
二、12306项目中的HTTPClient实现
1. 项目目录结构
12306项目的HTTP客户端位于myUrllib/httpUtils.py文件中,是整个项目的网络核心:
12306-master/
├── myUrllib/
│ ├── __init__.py
│ └── httpUtils.py # 自定义HTTPClient类
├── init/
│ ├── login.py # 使用HTTPClient登录
│ └── select_ticket_info.py # 使用HTTPClient查询和下单
└── inter/
└── *.py # 各种接口调用,均依赖HTTPClient
2. HTTPClient类核心代码
python
# -*- coding=utf-8 -*-
import urllib
import urllib2
import json
import random
import time
class HTTPClient:
def __init__(self, is_proxy=0):
"""
初始化HTTP客户端
:param is_proxy: 是否使用代理,0为不使用,1为使用
"""
self.is_proxy = is_proxy
self.cookies = {} # 存储Cookie
self._cdn = "" # CDN节点
self.headers = { # 默认请求头
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
"Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
"Referer": "https://kyfw.12306.cn/otn/login/init",
}
def send(self, url, data=None, method="GET"):
"""
发送HTTP请求
:param url: 请求URL
:param data: 请求数据,GET为None,POST为字典
:param method: 请求方法,GET或POST
:return: 响应结果,JSON格式
"""
try:
# 1. 构建请求
if method == "GET":
if data:
url += "?" + urllib.urlencode(data)
req = urllib2.Request(url, headers=self.headers)
else: # POST
if data:
data = urllib.urlencode(data)
req = urllib2.Request(url, data=data, headers=self.headers)
# 2. 添加Cookie
if self.cookies:
cookie_str = "; ".join(["{}={}".format(k, v) for k, v in self.cookies.items()])
req.add_header("Cookie", cookie_str)
# 3. 发送请求
response = urllib2.urlopen(req, timeout=10)
# 4. 处理响应
content = response.read()
result = json.loads(content) if content else {}
# 5. 更新Cookie
if "Set-Cookie" in response.headers:
cookie_header = response.headers["Set-Cookie"]
# 解析并更新Cookie
for cookie in cookie_header.split(";"):
if "=" in cookie:
key, value = cookie.split("=", 1)
key = key.strip()
value = value.split(";")[0].strip()
if key:
self.cookies[key] = value
return result
except Exception as e:
print(u"HTTP请求异常: {}".format(e))
return {}
def del_cookies(self):
"""清除所有Cookie"""
self.cookies.clear()
def set_cookie(self, key, value):
"""
设置Cookie
:param key: Cookie名
:param value: Cookie值
"""
self.cookies[key] = value
三、核心功能实现解析
1. 会话管理与会话保持
12306项目通过以下机制实现会话管理:
- Cookie持久化 :将每次请求的Cookie存储在
self.cookies字典中 - 自动Cookie添加:发送请求时自动将Cookie添加到请求头中
- Cookie更新:响应中包含新Cookie时自动更新本地存储
python
# 设置Cookie
self.set_cookie("SESSIONID", "abc123")
# 发送请求时自动添加Cookie
response = self.send("https://kyfw.12306.cn/otn/login/checkUser")
# Cookie自动更新
print(self.cookies) # 包含最新的Cookie
2. Cookie处理与登录状态维护
登录状态完全依赖Cookie管理:
- 登录成功后,服务器返回的Cookie会被自动存储
- 后续请求自动携带这些Cookie,保持登录状态
- 可通过
del_cookies()方法清除登录状态,用于重新登录
python
# 登录流程
login_result = self.send("https://kyfw.12306.cn/otn/login/loginAysnSuggest",
data={"username": "xxx", "password": "xxx"},
method="POST")
# 登录成功后,Cookie自动更新
if login_result.get("result_code") == 0:
print("登录成功,Cookie已更新")
# 后续请求自动携带登录Cookie
user_info = self.send("https://kyfw.12306.cn/otn/login/getUserInfo")
3. 灵活的配置选项
- 代理支持 :通过
is_proxy参数控制是否使用代理 - CDN支持:可设置CDN节点,加速请求
- 自定义请求头:支持灵活配置请求头
四、自定义客户端vs第三方库:优势对比
| 特性 | 自定义HTTPClient | requests库 |
|---|---|---|
| 性能 | 轻量高效 | 功能丰富但稍重 |
| 定制性 | 完全可控,可根据需求调整 | 封装较深,定制困难 |
| 学习成本 | 高,需要理解HTTP底层 | 低,API简洁易用 |
| 12306适配 | 专为12306优化,如CDN支持 | 需要额外配置 |
| 依赖 | 仅依赖标准库 | 需要安装第三方库 |
自定义客户端的核心优势
- 完全可控:可根据12306的特殊要求调整请求逻辑
- 轻量级:不依赖第三方库,减少部署复杂度
- 针对性优化:专为12306的API设计,如Cookie处理、请求头等
- 易于调试:可直接修改源码,方便排查问题
五、HTTPClient在项目中的应用场景
1. 登录流程
python
# init/login.py
class GoLogin:
def __init__(self, session, is_auto_code, auto_code_type):
self.session = session
# ...
def baseLogin(self, user, passwd):
"""登录过程"""
logurl = self.session.urls["login"]
logData = {
"username": user,
"password": passwd,
"appid": "otn"
}
# 使用HTTPClient发送登录请求
tresult = self.session.httpClint.send(logurl, logData)
# ...
2. 余票查询
python
# inter/Query.py
def sendQuery(self):
"""发送余票查询请求"""
# 构建查询参数
# ...
# 使用HTTPClient发送查询请求
result = self.session.httpClint.send(queryUrl, queryData)
# 解析查询结果
# ...
3. 订单提交
python
# inter/SubmitOrderRequest.py
def sendSubmitOrderRequest(self):
"""提交订单请求"""
# 构建订单数据
# ...
# 使用HTTPClient发送订单请求
result = self.session.httpClint.send(orderUrl, orderData, method="POST")
# 处理订单结果
# ...
六、总结:自定义HTTP客户端的价值
12306抢票项目的自定义HTTPClient类展示了如何基于Python标准库实现高效、灵活的网络请求管理。通过精心设计的会话管理和Cookie处理机制,该客户端能够很好地适应12306的特殊需求。
关键技术点回顾
- 会话管理:通过Cookie持久化实现会话保持
- Cookie处理:自动解析、存储和发送Cookie
- 灵活配置:支持代理、CDN等高级功能
- 轻量级设计:仅依赖Python标准库
- 针对性优化:专为12306 API设计
适用场景
自定义HTTP客户端适用于以下场景:
- 对网络请求有特殊要求的系统
- 需要深度定制HTTP请求逻辑的场景
- 对性能要求极高的应用
- 不希望引入第三方依赖的项目
通过学习12306项目的HTTPClient实现,我们可以更好地理解HTTP协议的底层机制,掌握会话管理、Cookie处理等核心技术,为构建更强大的网络应用打下基础。
七、代码优化建议
虽然该HTTPClient实现已经满足项目需求,但仍有优化空间:
- 添加重试机制:网络请求失败时自动重试
- 支持HTTPS代理:目前仅支持HTTP代理
- 添加请求日志:方便调试和监控
- 支持异步请求:提高并发处理能力
- 优化Cookie解析:更严谨地处理各种Cookie格式
以上优化建议可根据实际需求选择性实施,进一步提升HTTPClient的性能和可靠性。