爬虫:请求头,requests库基本使用

请求方式:get(向服务器要资源)和post(提交资源)

user-agent:模拟正常用户的一种方式

cookie:登陆保持

referer:表示当前这一次请求是由哪个请求过来的

抓取数据包得到的内容才是判断依据elements中的源码是渲染之后的不能作为判断标准

requests模块:

复制代码
import requests
url="https://www.baidu.com"
response=requests.get(url)
#print(response.text)#响应内容有乱码,requests模块会自动寻求一种解码方式去解码
print(response.content.decode())

使用requests库保存图片:

*确定url 发送请求,获取响应 保存响应

复制代码
import requests
url='https://ts1.tc.mm.bing.net/th/id/R-C.f1e812793db01f91d2f3c3ba3170e9b2?rik=wWVRN0nDp7vIYw&riu=http%3a%2f%2fpic.bizhi360.com%2fbbpic%2f72%2f6572.jpg&ehk=Jofon8hSdAuGUWZlfcJuSvncnsYZsKv0KdGjxHD%2b2eg%3d&risl=&pid=ImgRaw&r=0'
response=requests.get(url)
#print(response.text)#响应内容有乱码,requests模块会自动寻求一种解码方式去解码
with open('1.png','wb')as f:
    f.write(response.content)

response.text和response.content的区别:

text:str类型,requests模块自动根据http头部对响应和编码做出的推测,返回文本数据

content:bytes类型,可以通过decode()解码,返回二进制数据(图片,视频等)

将编码设置为utf-8:

response.encoding='utf-8'#指定编码

相关推荐
不会飞的鲨鱼2 小时前
Scrapy框架之CrawlSpider爬虫 实战 详解
爬虫·scrapy
API小爬虫7 小时前
利用 Python 爬虫按关键字搜索 1688 商品详情:实战指南
开发语言·爬虫·python
Luck_ff08108 小时前
【Python爬虫详解】第五篇:使用正则表达式提取网页数据
爬虫·python·正则表达式
xixixiLucky9 小时前
爬虫学习笔记(一)
笔记·爬虫·学习
一个天蝎座 白勺 程序猿10 小时前
Python爬虫(10)Python数据存储实战:基于pymongo的MongoDB开发深度指南
数据库·爬虫·mongodb
Auroral15613 小时前
【Python爬虫详解】第八篇:突破反爬体系的工程实践
爬虫
专注API从业者1 天前
《Go 语言高并发爬虫开发:淘宝商品 API 实时采集与 ETL 数据处理管道》
开发语言·后端·爬虫·golang
一个天蝎座 白勺 程序猿2 天前
Python爬虫(3)HTML核心技巧:从零掌握class与id选择器,精准定位网页元素
前端·爬虫·html
jiaoxingk2 天前
有关爬虫中数据库的封装——单线程爬虫
数据库·爬虫·python·mysql
知识中的海王2 天前
猿人学web端爬虫攻防大赛赛题第15题——备周则意怠-常见则不疑
爬虫·python