爬虫:请求头,requests库基本使用

请求方式:get(向服务器要资源)和post(提交资源)

user-agent:模拟正常用户的一种方式

cookie:登陆保持

referer:表示当前这一次请求是由哪个请求过来的

抓取数据包得到的内容才是判断依据elements中的源码是渲染之后的不能作为判断标准

requests模块:

复制代码
import requests
url="https://www.baidu.com"
response=requests.get(url)
#print(response.text)#响应内容有乱码,requests模块会自动寻求一种解码方式去解码
print(response.content.decode())

使用requests库保存图片:

*确定url 发送请求,获取响应 保存响应

复制代码
import requests
url='https://ts1.tc.mm.bing.net/th/id/R-C.f1e812793db01f91d2f3c3ba3170e9b2?rik=wWVRN0nDp7vIYw&riu=http%3a%2f%2fpic.bizhi360.com%2fbbpic%2f72%2f6572.jpg&ehk=Jofon8hSdAuGUWZlfcJuSvncnsYZsKv0KdGjxHD%2b2eg%3d&risl=&pid=ImgRaw&r=0'
response=requests.get(url)
#print(response.text)#响应内容有乱码,requests模块会自动寻求一种解码方式去解码
with open('1.png','wb')as f:
    f.write(response.content)

response.text和response.content的区别:

text:str类型,requests模块自动根据http头部对响应和编码做出的推测,返回文本数据

content:bytes类型,可以通过decode()解码,返回二进制数据(图片,视频等)

将编码设置为utf-8:

response.encoding='utf-8'#指定编码

相关推荐
巴里巴气3 小时前
Python爬虫用Clash软件设置代理IP
爬虫·python·tcp/ip
우리帅杰10 天前
爬虫002-----urllib标准库
爬虫
RacheV+TNY26427810 天前
拼多多API限流机制破解:分布式IP池搭建与流量伪装方案
大数据·网络·人工智能·爬虫·python
我怎么又饿了呀10 天前
DataWhale-零基础络网爬虫技术(三、爬虫进阶技术)
爬虫·datawhale
network爬虫10 天前
Python异步爬虫编程技巧:从入门到高级实战指南
开发语言·爬虫·python
电商API_1800790524710 天前
实现自动胡批量抓取唯品会商品详情数据的途径分享(官方API、网页爬虫)
java·前端·爬虫·数据挖掘·网络爬虫
lynn-6610 天前
java爬虫 -jsoup的简用法
java·开发语言·爬虫
伍哥的传说10 天前
Node.js爬虫 CheerioJS ‌轻量级解析、操作和渲染HTML及XML文档
爬虫·node.js·html
우리帅杰11 天前
爬虫001----介绍以及可能需要使用的技术栈
爬虫
Go Dgg11 天前
Go 语言的堆糖图片爬虫
开发语言·爬虫·golang