Python爬虫——如何使用requests库发送请求

前言

得益于各位技术大佬,经过封装后的requests库提供了一系列的接口,让我们可以更加便利地发送请求,管理Cookies和Session,以及验证代理等一系列操作。如果发现本文中有哪些错误,请不吝指正。

各种 HTTP 请求方法,不在话下

与原生的urllib库相比,requests库提供了更简洁、易于理解和使用的API,使发送HTTP请求变得更加直观和高效

python 复制代码
import requests    # 导入工具包

r = requests.get('https://httpbin.org/get')    # GET 请求

print(r.status_code)    # 状态码
print(r.headers)    # 请求头
print(type(r))    # 类型

在这里,我们直接调用requests.get()函数 ,打开URL,并将返回的信息集合成一个对象 ,并赋值给r。于是,我们便可以通过r这个requests.models.Response 类型对象属性,来查看状态码等响应信息。

神奇的是,不仅GET请求可以这样做,PUT、DELETE等请求也可以如此这般:

python 复制代码
r = requests.post('https://httpbin.org/post', data={'key': 'value'})    # POST 请求
r = requests.put('https://httpbin.org/put', data={'key': 'value'})    # PUT 请求
r = requests.delete('https://httpbin.org/delete')    # DELETE 请求
r = requests.head('https://httpbin.org/get')    # HEAD 请求
r = requests.options('https://httpbin.org/get')    # OPTIONS 请求

糟糕糟糕,请求错误OMG

跌落谷底并不可怕,可怕的是茫然四顾却束手无措。在Python的requests库中,我们也可以很方便地使用异常处理机制来有效捕捉和处理各种不同的异常。

python 复制代码
import requests    # 导入工具包    

try:    # 用try和except块捕捉可能的异常
    response = requests.get('https://baidu.com')
    response.raise_for_status()
except requests.exception.HTTPError as e:
    print('HTTP 错误:', e)
  • response = requests.get('https://baidu.com'),如同上面所说,用requests.get()方法发出HTTP请求,并将响应信息 集合成实例对象response
  • response.raise_for_status(),该方法用来检查响应信息的状态码,如果状态码是一个错误(比如404 Not Found500 Internal Server Error等),则会引发requests.exceptions.HTTPError异常,从而使代码跳转except模块,方便处理异常
  • except requests.exception.HTTPError as e:,该语句进行异常处理,用于捕获requests库中的HTTPError异常,并将其存储在变量e中,以便对异常对象进行访问或处理

当然,请求错误有很多类型,不止刚才提到的HTTP错误异常(HTTPError) ,还有连接异常(ConnectionError)超时异常(Timeout) 等异常情况。要想捕捉这些异常也非常简单,只需要把except requests.exception.HTTPError as e:语句中的HTTPError改成相应的异常名称即可。

Session会话,持久高效

在urllin库中,Session会话状态不易维护,我们需要手动管理每个请求的cookies,代码量较大且不够简洁。而requests库提供了非常灵活的管理接口,可以轻松地在多个会话之间保持会话状态信息。

作为新手,我常常混淆SessionCookies 这两者的概念。事实上,由于各个HTTP请求是无状态相互独立 的,服务器为了跟踪用户的状态信息,便提供一种机制 ,使其可以识别在短时间内多个不同的HTTP请求是同一个用户发出的,从而提供更多个性化服务。这种机制 ,便是会话(Session)

那么,服务器是如何识别这多个不同的HTTP请求是同一个用户发出的呢?

通过用户发送的HTTP请求信息中的一个令牌 。这令牌,便是唯一会话标识符(Session ID) 。当服务器第一次接收到用户的HTTP请求时,便给用户发送这个唯一会话标识符(Session ID) ,那么只要当之后浏览器等客户端每一次发送HTTP请求时,带上这个令牌 ,服务器便可以识别不同的HTTP请求是同一个用户发出的。在浏览器等客户端中,维护这令牌 的,便是Cookies

于是在实际爬虫中,我们如果有需要,便可以去维护Cookies ,从而让服务器能够长久地维护Session会话

python 复制代码
import requests    # 导入工具包

s = requests.Session()    # 创建一个 Session 对象
s.get('https://httpbin.org/get')    # 发送 GET 请求
s.cookies.set('key','value')    # 设置 Cookies 参数
s.headers.update({'User-Agent':'Mozilla/5.0'})    # 设置headers参数,自定义请求头
  • s = requests.Session(),这里用requests.Session()方法构建一个会话对象,并将其赋值给s
  • s.get('https://httpbin.org/get'),值得注意的是,该会话对象s的类型是requests.sessions.Session 类型对象,该类型对象可以像 requests.models.Response 类型对象一样发送各类诸如GET、POST类型的HTTP请求。
  • s.cookies.set('key','value'),该语句通过使用cookies参数来设置cookies
  • s.headers.update({'User-Agent':'Mozilla/5.0'}),该代码使用headers参数设置 headers,其中不仅可以包括User-Agent客户端类型表示,还可以包括Accept客户端可接受内容类型、Authorization身份验证信息等

参考资料

Requests: HTTP for Humans.

【2022 年】Python3 爬虫教程 - 方便好用的 requests.

相关推荐
z千鑫2 分钟前
【人工智能】深入理解PyTorch:从0开始完整教程!全文注解
人工智能·pytorch·python·gpt·深度学习·ai编程
MessiGo26 分钟前
Python 爬虫 (1)基础 | 基础操作
开发语言·python
肥猪猪爸1 小时前
使用卡尔曼滤波器估计pybullet中的机器人位置
数据结构·人工智能·python·算法·机器人·卡尔曼滤波·pybullet
LZXCyrus1 小时前
【杂记】vLLM如何指定GPU单卡/多卡离线推理
人工智能·经验分享·python·深度学习·语言模型·llm·vllm
Enougme1 小时前
Appium常用的使用方法(一)
python·appium
懷淰メ1 小时前
PyQt飞机大战游戏(附下载地址)
开发语言·python·qt·游戏·pyqt·游戏开发·pyqt5
hummhumm2 小时前
第 22 章 - Go语言 测试与基准测试
java·大数据·开发语言·前端·python·golang·log4j
hummhumm2 小时前
第 28 章 - Go语言 Web 开发入门
java·开发语言·前端·python·sql·golang·前端框架
每天吃饭的羊2 小时前
python里的数据结构
开发语言·python
卡卡_R-Python3 小时前
UCI Heart Disease Data Set—— UCI 心脏病数据集介绍
python·plotly·django·virtualenv·pygame