爬虫:请求头,requests库基本使用

请求方式:get(向服务器要资源)和post(提交资源)

user-agent:模拟正常用户的一种方式

cookie:登陆保持

referer:表示当前这一次请求是由哪个请求过来的

抓取数据包得到的内容才是判断依据elements中的源码是渲染之后的不能作为判断标准

requests模块:

复制代码
import requests
url="https://www.baidu.com"
response=requests.get(url)
#print(response.text)#响应内容有乱码,requests模块会自动寻求一种解码方式去解码
print(response.content.decode())

使用requests库保存图片:

*确定url 发送请求,获取响应 保存响应

复制代码
import requests
url='https://ts1.tc.mm.bing.net/th/id/R-C.f1e812793db01f91d2f3c3ba3170e9b2?rik=wWVRN0nDp7vIYw&riu=http%3a%2f%2fpic.bizhi360.com%2fbbpic%2f72%2f6572.jpg&ehk=Jofon8hSdAuGUWZlfcJuSvncnsYZsKv0KdGjxHD%2b2eg%3d&risl=&pid=ImgRaw&r=0'
response=requests.get(url)
#print(response.text)#响应内容有乱码,requests模块会自动寻求一种解码方式去解码
with open('1.png','wb')as f:
    f.write(response.content)

response.text和response.content的区别:

text:str类型,requests模块自动根据http头部对响应和编码做出的推测,返回文本数据

content:bytes类型,可以通过decode()解码,返回二进制数据(图片,视频等)

将编码设置为utf-8:

response.encoding='utf-8'#指定编码

相关推荐
程序员威哥16 小时前
实战!Python爬京东商品评论:从采集到情感分析+词云可视化,新手30分钟跑通
开发语言·爬虫·python·scrapy
S1998_1997111609•X1 天前
哈希树函数洪水泛滥污染孪生镜像导致生物量子信息泄露以钩子而爬虫植入ssd探测
爬虫·网络协议·缓存·哈希算法·开闭原则
捉鸭子1 天前
QQ音乐sign vmp逆向
爬虫·python·网络安全·网络爬虫
上海云盾王帅1 天前
如何防御爬虫攻击:告别数据被扒,构建智能业务风控体系
爬虫
不会飞的鲨鱼1 天前
观鸟网 RSA加密 AES 解密
javascript·爬虫·python
pengyi8710151 天前
HTTP与HTTPS代理基础区别,协议原理通俗解析
网络·爬虫·网络协议·tcp/ip·智能路由器
科技牛牛2 天前
AI爬虫引爆代理IP产业:一场正在发生的数据粮草争夺战
人工智能·爬虫·tcp/ip·数据安全·ip地址查询
小白学大数据2 天前
JS 混淆加密下的 Python 爬虫解决方案
javascript·爬虫·python
艺杯羹2 天前
Tkinter实战:为CSDN爬虫打造可视化界面,从GUI到多线程完整方案
爬虫·python·开源