目录
- [一、UA 反爬](#一、UA 反爬)
- [二、Cookie 验证与反爬](#二、Cookie 验证与反爬)
- [三、Referer 反爬](#三、Referer 反爬)
一、UA 反爬
UA (User Agent):用户代理,是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
python
# 1. 导入模块
import requests # 第三方库,用于 HTTP 请求和响应
# UA 反爬
head = {
'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36'
}
# 2. 确定 url:分析是动态加载还是静态加载
response = requests.get(" https://www.baidu.com/", headers=head)
print(response) # 200 代表请求成功
print(response.request.headers) # 返回此响应的请求对象中的请求头数据字典
print(response.text) # 内容获取
二、Cookie 验证与反爬
1、Cookie 简介
Cookie 实际上是一小段的文字信息(key - value 格式)。浏览器向服务器发起请求,如果服务器需要记录该状态,服务器就会向浏览器颁发一个 Cookie 。浏览器会把 Cookie 保存起来。当浏览器再请求该服务器时,浏览器把请求的网址连同该 Cookie 一同提交给服务器。服务器检查该 Cookie,以此来辨认浏览器状态。
2、使用 Cookie 原因
浏览器与 Web 服务器之间是使用 HTTP 协议进行通讯的,而 HTTP 协议本身是无状态的。这时就需要一个能保存访问状态的信息,去告诉服务器我已经访问过了,这个信息就可以使用 Cookie 来保存。
3、Cookie 作用
可以用来保存用户使用浏览器访问网站的状态和用户信息。
3.1、模拟登录
清除 Cookie 就会需要重新登录
python
# 需求:获取qq空间的源码内容
# 导入模块
import requests # 第三方库,用于 HTTP 请求和响应
# 指定 url
url = 'https://user.qzone.qq.com/1239079951/'
# 设置请求头参数
head = {
'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36',
'cookie' : 'welcomeflash=1239079951_58028; 1239079951_todaycount=0; 1239079951_totalcount=711; zzpaneluin=; zzpanelkey=; _qpsvr_localtk=0.7968639470198942; pgv_pvid=2658927712; pgv_info=ssid=s6023428415; uin=o1239079951; skey=@a2rnf3d2i; RK=Pj/cU4cYQh; ptcz=bee843eefb32a24e3fbb4779c00f3b4c63e2147d141bfab48ec2d373876a69fc; p_uin=o1239079951; pt4_token=oAjhJ-Oz3bRCQxzVp1h5a-a0pVPqpKqQoY1zuBFJVSk_; p_skey=XeyEpGYXjpRu7BXRy0X9ziStf01fdmTm8aYrLjWtB0E_; Loading=Yes; qz_screen=1707x960; QZ_FE_WEBP_SUPPORT=1'
}
# 发请求,获取响应
res = requests.get(url, headers=head)
# 获取数据内容
print(res.text)
# 存储数据到网页
with open('qq.html', 'w', encoding='utf-8') as f:
f.write(res.text)
3.2、反反爬
python
# 需求:12306 获取车次,商务座,一等座,二等座车票信息
# 导入模块
import requests # 第三方库,用于 HTTP 请求和响应
# 确定 url,动态加载
url = 'https://kyfw.12306.cn/otn/leftTicket/query?leftTicketDTO.train_date=2023-05-10&leftTicketDTO.from_station=BJP&leftTicketDTO.to_station=SHH&purpose_codes=ADULT'
# 请求头
head = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36',
'Cookie': '_uab_collina=168318675077602254447501; JSESSIONID=C5AA287034ADDC01F700CDA3D9EE46D2; guidesStatus=off; highContrastMode=defaltMode; cursorStatus=off; _jc_save_fromStation=%u5317%u4EAC%2CBJP; _jc_save_toStation=%u4E0A%u6D77%2CSHH; _jc_save_wfdc_flag=dc; _jc_save_fromDate=2023-05-10; BIGipServerotn=2280128778.50210.0000; BIGipServerpassport=820510986.50215.0000; fo=w8uwzem75d825acts7YB1-2Bj97FKHZ78kByS5lyysh0IxfhP_uETE4wnK33Yo8kl4iHJ4i6APzKUi_i9eCKSkcy49YyQobD21EHjKr2nl_AwYwjoBRMxTekPqrkAguvB1KD96WmtXrXGXSvuKQdfXZnZqu7EeUY6ieU93J0lpqamZUqq0piTKoPq0s; route=9036359bb8a8a461c164a04f8f50b252; _jc_save_toDate=2023-05-09'
}
# 发请求
res = requests.get(url, headers=head)
# 打印文本内容
# print(res.text) # 输出数据为 json 格式
# 打印内容
json_data = res.json() # 将 json 格式的数据自动转换
result = json_data['data']['result']
# print(result)
# 数据拆分
# data = result[2] # 找到一个数据比较全的
# datas = data.split("|") # 将数据拆分成列表
# print(datas)
# 枚举获取数据对应下标
# for index,value in enumerate(datas):
# print(index,value) # 车次3 特等座32 一等座31 二等座30
# 循环打印目标数据
for i in result:
data = i.split("|")
print(f'车次为{data[3]},特等座为{data[32]},一等座为{data[31]},二等座为{data[30]}')
三、Referer 反爬
Referer :是 header 的一部分,当浏览器向 Web 服务器发送请求的时候,一般会带上 Referer,用来表示从哪儿链接到当前的网页。
python
# 需求:获取梨视频中的视频
# 导入模块
import requests # 第三方库,用于 HTTP 请求和响应
# 确定 url
url = 'https://www.pearvideo.com/videoStatus.jsp?contId=1198526&mrd=0.44597986044359117'
# 请求头
referer = 'https://www.pearvideo.com/video_1198526'
head ={
'Referer': referer
}
# 发送请求
res = requests.get(url, headers=head)
# 获取数据
data = res.json() # 将 json 格式的数据自动转换
src_url = data['videoInfo']['videos']['srcUrl'] # 找到视频 url
# https://video.pearvideo.com/mp4/short/20171114/1683772197751-11122362-hd.mp4 爬取的视频链接
# https://video.pearvideo.com/mp4/short/20171114/cont-1198526-11122362-hd.mp4 真实视频链接
# 1683772197751 替换 cont-1198526
# replace(old, new)
# 找到时间戳
systemTime = data['systemTime']
# 获取编号
id = 'cont-' + referer.split('_')[1]
# 时间戳替换成视频 id
video_url = src_url.replace(systemTime, id)
print(video_url)
# 向视频 url 发请求
res1 = requests.get(video_url)
# 视频文件是二进制 ------ wb 模式
with open('v1.mp4','wb') as f:
f.write(res1.content)
记录学习过程,欢迎讨论交流,尊重原创,转载请注明出处~