Python爬虫:Session、Cookie、JWT

当你在Python中进行网络爬虫时,需要处理会话(Session)、Cookie和JWT(JSON Web Token)时,以下是更详细的介绍和示例:

Session(会话):

会话用于维护用户的状态和跟踪他们的活动,通常在登录和跨多个页面请求之间非常有用。Python中使用requests库来创建和管理会话:

python 复制代码
import requests

# 创建一个会话对象
session = requests.Session()

# 在会话中发送GET请求
response = session.get('https://example.com')

# 在会话中保持登录状态
login_data = {'username': 'your_username', 'password': 'your_password'}
session.post('https://example.com/login', data=login_data)

# 使用同一会话发送后续请求
response = session.get('https://example.com/dashboard')

使用会话,你可以跨多个请求共享Cookie和其他会话数据,以便保持登录状态。

Cookie:

Cookie是一种用于在客户端和服务器之间传递数据的机制。在爬虫中,你可以发送包含Cookie的HTTP请求以模拟已登录的用户。首先,你需要获取登录后的Cookie:

python 复制代码
import requests

# 发送登录请求并获取Cookie
login_data = {'username': 'your_username', 'password': 'your_password'}
response = requests.post('https://example.com/login', data=login_data)

# 获取响应中的Cookie
cookies = response.cookies

# 使用获取的Cookie发送请求
response = requests.get('https://example.com/dashboard', cookies=cookies)

在此示例中,我们首先发送登录请求,然后从响应中提取Cookie,并将其包含在后续请求中。

JWT(JSON Web Token):

JWT是一种用于身份验证和授权的令牌,通常包含在HTTP请求的头部中。要在Python中使用JWT进行身份验证,你需要获取有效的令牌,并将其包含在请求头中:

python 复制代码
import requests

# 获取JWT令牌
jwt_token = 'your_jwt_token'

# 创建请求头,包含JWT令牌
headers = {'Authorization': f'Bearer {jwt_token}'}

# 发送包含JWT令牌的请求
response = requests.get('https://example.com/protected_resource', headers=headers)

JWT令牌通常包括在Authorization请求头中,前缀为"Bearer"。

代码案例

python 复制代码
from urllib.parse import urljoin
from selenium import webdriver
from selenium.webdriver.common.by import By
import requests
import time

BASE_URL = 'https://login2.scrape.center/'
LOGIN_URL = urljoin(BASE_URL, '/login')
INDEX_URL = urljoin(BASE_URL, '/page/1')
USERNAME = 'admin'
PASSWORD = 'admin'

browser = webdriver.Chrome()
browser.get(BASE_URL)
browser.find_element(By.CSS_SELECTOR, 'input[name="username"]').send_keys(USERNAME)
browser.find_element(By.CSS_SELECTOR, 'input[name="password"]').send_keys(PASSWORD)
browser.find_element(By.CSS_SELECTOR, 'input[type="submit"]').click()
time.sleep(10)

# get cookies from selenium
cookies = browser.get_cookies()
print('Cookies', cookies)
browser.close()

# set cookies to requests
session = requests.Session()
for cookie in cookies:
    session.cookies.set(cookie['name'], cookie['value'])

response_index = session.get(INDEX_URL)
print('Response Status', response_index.status_code)
print('Response URL', response_index.url)

请注意,使用爬虫技术时,务必遵守目标网站的规定和政策。不当使用爬虫可能导致法律问题,因此请确保你的爬虫活动合法,并尊重网站的Robots.txt文件和使用条款。

相关推荐
xxie1237943 小时前
return与print
开发语言·python
秋93 小时前
从 Python 后端工程师转型 AI Engineer(AI 工程化)的完整补课清单(2026实战版)
开发语言·人工智能·python
程序员二叉3 小时前
【Java】 异常高频面试题精讲 | 易错点+对比总结
java·开发语言·面试
慕木沐4 小时前
Google ADK Java 1.0版本 核心机制与实战 Demo
java·开发语言·python
电商API_180079052474 小时前
bilibili关键字搜索视频列表|获取视频详情API调用示例
大数据·数据挖掘·网络爬虫·音视频
Tbisnic4 小时前
AI大模型学习第十一天:技术选型、安全防护与金融实战
python·学习·ai·大模型·提示词工程
Roann_seo%4 小时前
C++文件操作完全指南:从文本读写到二进制文件处理
开发语言·c++
hboot4 小时前
AI工程师第一课 - Python
前端·后端·python
huangdong_5 小时前
淘宝商品SKU图自动分类技术深度解析:从DOM解析到智能归档
开发语言·javascript·ecmascript
阿正的梦工坊5 小时前
【Rust】12-借用检查器与非词法生命周期
开发语言·后端·rust