Python爬虫——如何使用requests库发送请求

前言

得益于各位技术大佬,经过封装后的requests库提供了一系列的接口,让我们可以更加便利地发送请求,管理Cookies和Session,以及验证代理等一系列操作。如果发现本文中有哪些错误,请不吝指正。

各种 HTTP 请求方法,不在话下

与原生的urllib库相比,requests库提供了更简洁、易于理解和使用的API,使发送HTTP请求变得更加直观和高效

python 复制代码
import requests    # 导入工具包

r = requests.get('https://httpbin.org/get')    # GET 请求

print(r.status_code)    # 状态码
print(r.headers)    # 请求头
print(type(r))    # 类型

在这里,我们直接调用requests.get()函数 ,打开URL,并将返回的信息集合成一个对象 ,并赋值给r。于是,我们便可以通过r这个requests.models.Response 类型对象属性,来查看状态码等响应信息。

神奇的是,不仅GET请求可以这样做,PUT、DELETE等请求也可以如此这般:

python 复制代码
r = requests.post('https://httpbin.org/post', data={'key': 'value'})    # POST 请求
r = requests.put('https://httpbin.org/put', data={'key': 'value'})    # PUT 请求
r = requests.delete('https://httpbin.org/delete')    # DELETE 请求
r = requests.head('https://httpbin.org/get')    # HEAD 请求
r = requests.options('https://httpbin.org/get')    # OPTIONS 请求

糟糕糟糕,请求错误OMG

跌落谷底并不可怕,可怕的是茫然四顾却束手无措。在Python的requests库中,我们也可以很方便地使用异常处理机制来有效捕捉和处理各种不同的异常。

python 复制代码
import requests    # 导入工具包    

try:    # 用try和except块捕捉可能的异常
    response = requests.get('https://baidu.com')
    response.raise_for_status()
except requests.exception.HTTPError as e:
    print('HTTP 错误:', e)
  • response = requests.get('https://baidu.com'),如同上面所说,用requests.get()方法发出HTTP请求,并将响应信息 集合成实例对象response
  • response.raise_for_status(),该方法用来检查响应信息的状态码,如果状态码是一个错误(比如404 Not Found500 Internal Server Error等),则会引发requests.exceptions.HTTPError异常,从而使代码跳转except模块,方便处理异常
  • except requests.exception.HTTPError as e:,该语句进行异常处理,用于捕获requests库中的HTTPError异常,并将其存储在变量e中,以便对异常对象进行访问或处理

当然,请求错误有很多类型,不止刚才提到的HTTP错误异常(HTTPError) ,还有连接异常(ConnectionError)超时异常(Timeout) 等异常情况。要想捕捉这些异常也非常简单,只需要把except requests.exception.HTTPError as e:语句中的HTTPError改成相应的异常名称即可。

Session会话,持久高效

在urllin库中,Session会话状态不易维护,我们需要手动管理每个请求的cookies,代码量较大且不够简洁。而requests库提供了非常灵活的管理接口,可以轻松地在多个会话之间保持会话状态信息。

作为新手,我常常混淆SessionCookies 这两者的概念。事实上,由于各个HTTP请求是无状态相互独立 的,服务器为了跟踪用户的状态信息,便提供一种机制 ,使其可以识别在短时间内多个不同的HTTP请求是同一个用户发出的,从而提供更多个性化服务。这种机制 ,便是会话(Session)

那么,服务器是如何识别这多个不同的HTTP请求是同一个用户发出的呢?

通过用户发送的HTTP请求信息中的一个令牌 。这令牌,便是唯一会话标识符(Session ID) 。当服务器第一次接收到用户的HTTP请求时,便给用户发送这个唯一会话标识符(Session ID) ,那么只要当之后浏览器等客户端每一次发送HTTP请求时,带上这个令牌 ,服务器便可以识别不同的HTTP请求是同一个用户发出的。在浏览器等客户端中,维护这令牌 的,便是Cookies

于是在实际爬虫中,我们如果有需要,便可以去维护Cookies ,从而让服务器能够长久地维护Session会话

python 复制代码
import requests    # 导入工具包

s = requests.Session()    # 创建一个 Session 对象
s.get('https://httpbin.org/get')    # 发送 GET 请求
s.cookies.set('key','value')    # 设置 Cookies 参数
s.headers.update({'User-Agent':'Mozilla/5.0'})    # 设置headers参数,自定义请求头
  • s = requests.Session(),这里用requests.Session()方法构建一个会话对象,并将其赋值给s
  • s.get('https://httpbin.org/get'),值得注意的是,该会话对象s的类型是requests.sessions.Session 类型对象,该类型对象可以像 requests.models.Response 类型对象一样发送各类诸如GET、POST类型的HTTP请求。
  • s.cookies.set('key','value'),该语句通过使用cookies参数来设置cookies
  • s.headers.update({'User-Agent':'Mozilla/5.0'}),该代码使用headers参数设置 headers,其中不仅可以包括User-Agent客户端类型表示,还可以包括Accept客户端可接受内容类型、Authorization身份验证信息等

参考资料

Requests: HTTP for Humans.

【2022 年】Python3 爬虫教程 - 方便好用的 requests.

相关推荐
这个男人是小帅40 分钟前
【GAT】 代码详解 (1) 运行方法【pytorch】可运行版本
人工智能·pytorch·python·深度学习·分类
小白学大数据4 小时前
Python爬虫开发中的分析与方案制定
开发语言·c++·爬虫·python
Shy9604185 小时前
Doc2Vec句子向量
python·语言模型
数据小小爬虫5 小时前
如何用Java爬虫“偷窥”淘宝商品类目API的返回值
java·爬虫·php
秀儿还能再秀7 小时前
机器学习——简单线性回归、逻辑回归
笔记·python·学习·机器学习
阿_旭8 小时前
如何使用OpenCV和Python进行相机校准
python·opencv·相机校准·畸变校准
幸运的星竹8 小时前
使用pytest+openpyxl做接口自动化遇到的问题
python·自动化·pytest
kali-Myon10 小时前
ctfshow-web入门-SSTI(web361-web368)上
前端·python·学习·安全·web安全·web
B站计算机毕业设计超人10 小时前
计算机毕业设计Python+大模型农产品价格预测 ARIMA自回归模型 农产品可视化 农产品爬虫 机器学习 深度学习 大数据毕业设计 Django Flask
大数据·爬虫·python·深度学习·机器学习·课程设计·数据可视化