Python爬虫——如何使用requests库发送请求

前言

得益于各位技术大佬,经过封装后的requests库提供了一系列的接口,让我们可以更加便利地发送请求,管理Cookies和Session,以及验证代理等一系列操作。如果发现本文中有哪些错误,请不吝指正。

各种 HTTP 请求方法,不在话下

与原生的urllib库相比,requests库提供了更简洁、易于理解和使用的API,使发送HTTP请求变得更加直观和高效

python 复制代码
import requests    # 导入工具包

r = requests.get('https://httpbin.org/get')    # GET 请求

print(r.status_code)    # 状态码
print(r.headers)    # 请求头
print(type(r))    # 类型

在这里,我们直接调用requests.get()函数 ,打开URL,并将返回的信息集合成一个对象 ,并赋值给r。于是,我们便可以通过r这个requests.models.Response 类型对象属性,来查看状态码等响应信息。

神奇的是,不仅GET请求可以这样做,PUT、DELETE等请求也可以如此这般:

python 复制代码
r = requests.post('https://httpbin.org/post', data={'key': 'value'})    # POST 请求
r = requests.put('https://httpbin.org/put', data={'key': 'value'})    # PUT 请求
r = requests.delete('https://httpbin.org/delete')    # DELETE 请求
r = requests.head('https://httpbin.org/get')    # HEAD 请求
r = requests.options('https://httpbin.org/get')    # OPTIONS 请求

糟糕糟糕,请求错误OMG

跌落谷底并不可怕,可怕的是茫然四顾却束手无措。在Python的requests库中,我们也可以很方便地使用异常处理机制来有效捕捉和处理各种不同的异常。

python 复制代码
import requests    # 导入工具包    

try:    # 用try和except块捕捉可能的异常
    response = requests.get('https://baidu.com')
    response.raise_for_status()
except requests.exception.HTTPError as e:
    print('HTTP 错误:', e)
  • response = requests.get('https://baidu.com'),如同上面所说,用requests.get()方法发出HTTP请求,并将响应信息 集合成实例对象response
  • response.raise_for_status(),该方法用来检查响应信息的状态码,如果状态码是一个错误(比如404 Not Found500 Internal Server Error等),则会引发requests.exceptions.HTTPError异常,从而使代码跳转except模块,方便处理异常
  • except requests.exception.HTTPError as e:,该语句进行异常处理,用于捕获requests库中的HTTPError异常,并将其存储在变量e中,以便对异常对象进行访问或处理

当然,请求错误有很多类型,不止刚才提到的HTTP错误异常(HTTPError) ,还有连接异常(ConnectionError)超时异常(Timeout) 等异常情况。要想捕捉这些异常也非常简单,只需要把except requests.exception.HTTPError as e:语句中的HTTPError改成相应的异常名称即可。

Session会话,持久高效

在urllin库中,Session会话状态不易维护,我们需要手动管理每个请求的cookies,代码量较大且不够简洁。而requests库提供了非常灵活的管理接口,可以轻松地在多个会话之间保持会话状态信息。

作为新手,我常常混淆SessionCookies 这两者的概念。事实上,由于各个HTTP请求是无状态相互独立 的,服务器为了跟踪用户的状态信息,便提供一种机制 ,使其可以识别在短时间内多个不同的HTTP请求是同一个用户发出的,从而提供更多个性化服务。这种机制 ,便是会话(Session)

那么,服务器是如何识别这多个不同的HTTP请求是同一个用户发出的呢?

通过用户发送的HTTP请求信息中的一个令牌 。这令牌,便是唯一会话标识符(Session ID) 。当服务器第一次接收到用户的HTTP请求时,便给用户发送这个唯一会话标识符(Session ID) ,那么只要当之后浏览器等客户端每一次发送HTTP请求时,带上这个令牌 ,服务器便可以识别不同的HTTP请求是同一个用户发出的。在浏览器等客户端中,维护这令牌 的,便是Cookies

于是在实际爬虫中,我们如果有需要,便可以去维护Cookies ,从而让服务器能够长久地维护Session会话

python 复制代码
import requests    # 导入工具包

s = requests.Session()    # 创建一个 Session 对象
s.get('https://httpbin.org/get')    # 发送 GET 请求
s.cookies.set('key','value')    # 设置 Cookies 参数
s.headers.update({'User-Agent':'Mozilla/5.0'})    # 设置headers参数,自定义请求头
  • s = requests.Session(),这里用requests.Session()方法构建一个会话对象,并将其赋值给s
  • s.get('https://httpbin.org/get'),值得注意的是,该会话对象s的类型是requests.sessions.Session 类型对象,该类型对象可以像 requests.models.Response 类型对象一样发送各类诸如GET、POST类型的HTTP请求。
  • s.cookies.set('key','value'),该语句通过使用cookies参数来设置cookies
  • s.headers.update({'User-Agent':'Mozilla/5.0'}),该代码使用headers参数设置 headers,其中不仅可以包括User-Agent客户端类型表示,还可以包括Accept客户端可接受内容类型、Authorization身份验证信息等

参考资料

Requests: HTTP for Humans.

【2022 年】Python3 爬虫教程 - 方便好用的 requests.

相关推荐
青衫客361 小时前
基于 Python 构建的安全 gRPC 服务——TLS、mTLS 与 Casbin 授权实战
python·安全·微服务
-dzk-2 小时前
【3DGS复现】Autodl服务器复现3DGS《简单快速》《一次成功》《新手练习复现必备》
运维·服务器·python·计算机视觉·3d·三维重建·三维
摩羯座-185690305943 小时前
爬坑 10 年!京东店铺全量商品接口实战开发:从分页优化、SKU 关联到数据完整性闭环
linux·网络·数据库·windows·爬虫·python
ACERT3333 小时前
5.吴恩达机器学习—神经网络的基本使用
人工智能·python·神经网络·机器学习
韩立学长4 小时前
【开题答辩实录分享】以《基于python的奶茶店分布数据分析与可视化》为例进行答辩实录分享
开发语言·python·数据分析
2401_831501734 小时前
Python学习之day03学习(文件和异常)
开发语言·python·学习
可触的未来,发芽的智生5 小时前
触摸未来2025.10.06:声之密语从生理构造到神经网络的声音智能革命
人工智能·python·神经网络·机器学习·架构
Zwb2997925 小时前
Day 24 - 文件、目录与路径 - Python学习笔记
笔记·python·学习
hui函数5 小时前
python全栈(基础篇)——day03:后端内容(字符串格式化+简单数据类型转换+进制的转换+运算符+实战演示+每日一题)
开发语言·后端·python·全栈
动能小子ohhh5 小时前
AI智能体(Agent)大模型入门【6】--编写fasteAPI后端请求接口实现页面聊天
人工智能·python·深度学习·ai编程