Python爬虫—requests模块简单应用

Python爬虫---requests模块简介

requests的作用与安装

作用:发送网络请求,返回响应数据

安装:pip install requests

requests模块发送简单的get请求、获取响应

需求:通过requests向百度首页发送请求,获取百度首页的数据

python 复制代码
import requests

# 目标url
url = 'https://www.baidu.com'

# 向目标url发送get请求
response = requests.get(url)

# 打印响应内容
print(response.text)

# 获取响应
res = requests.get(url, headers=headers)
print(res)
print(type(res))

# 获取请求的url, 响应的编码方式
print(res.url)
res.encoding = 'utf-8'

# 获取响应内容,会使用默认编码(有时候会乱码, 需要指定编码)
print(res.encoding)
print(res.text)
print(res.content.decode('utf-8'))

# 获取请求状态码
print(res.status_code)

# 获取响应对应的请求头
print(res.request.headers)

# 获取相应的cookie
print(res.cookies)
response的常用属性:
  • response.text 响应体str类型
  • response.encoding 从HTTP header中猜测的响应内容的编码方式
  • response.content 响应体bytes类型
  • response.status_code 响应状态码
  • response.requests.headers 响应对应的请求头
  • response.headers 响应头
  • response.cookies 响应的cookie(经过了set-cookie动作)
  • response.url 获取访问的url
  • response.json() 获取json数据得到内容为字典(如果接口响应体的格式是json格式时)
  • response.ok

​ 如果status_code小于200,response.ok返回True。

​ 如果status_code大于200,response.ok返回False。

response.text和response.content的区别

  • response.text
    • 类型:str
    • 解码类型:requests模块自动根据HTTP头部对响应的编码作出有根据的推测,推测的文本编码
    • 如何修改编码方式:response.encoding="gbk/UTF-8"
  • response.content
    • 类型:bytes
    • 解码类型:没有指定
    • 如何修改编码方式:response.content.decode('utf-8')

获取网页源码的通用方式:

python 复制代码
response.content.decode()
response.content.decode('utf-8')
response.text

requests下载图片

python 复制代码
# 在百度首页搜索李小龙图片,然后下载到本地
import requests

url = 'https://photocdn.sohu.com/20080725/Img258368622.jpg'
res = requests.get(url)
with open('李小龙.jpg', 'wb') as f:
    f.write(res.content)
复制代码
import requests

url = 'https://photocdn.sohu.com/20080725/Img258368622.jpg'
# 请求
res = requests.get(url)
# 写入
with open('李小龙.jpg', 'wb') as f:
		# 写入文件 注意:必须二进制形式
    f.write(res.content)

发送带header请求头的请求

python 复制代码
import requests

headers = {
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

url = 'https://i3.sinaimg.cn/ent/m/c/2010-11-26/U3987P28T3D3159293F326DT20101126121845.jpg'
# 请求
res = requests.get(url, headers=headers)

# 写入
with open('李小龙1.jpg', 'wb') as f:
  f.write(res.content)

发送带参数的请求

  • GET请求
python 复制代码
import requests

headers = {
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}
kw = {
  'wd': '李小龙'
}
url = 'https://www.baidu.com/s?'

res = requests.get(url, params=kw, headers=headers)
print(res.content.decode('utf-8'))
  • POST请求
python 复制代码
import requests

headers = {
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}
url = 'https://ifanyi.iciba.com/index.php?c=trans&m=fy&client=6&auth_user=key_web_new_fanyi&sign=NyHAgRlbDg6%2BBbQIiKcntdRriqVIAJSQ%2BxmfU0q7dIE%3D'
# post 携带表单数据
form_data = {
'from': 'zh',
'to': 'en',
'q': '我爱你中国'
}

# 发送post请求
res = requests.post(url, data=form_data, headers=headers)
print(res.json())
相关推荐
顾安r1 分钟前
11.5 脚本 本地网站收藏(解封归来)
linux·服务器·c语言·python·bash
Blossom.1188 分钟前
把AI“贴”进路灯柱:1KB决策树让老旧路灯自己报「灯头松动」
java·人工智能·python·深度学习·算法·决策树·机器学习
❀͜͡傀儡师22 分钟前
快速定位并解决Java应用CPU占用过高问题
java·开发语言·python
linuxxx11024 分钟前
django中request.GET.urlencode的使用
后端·python·django
冬天vs不冷27 分钟前
Java基础(十五):注解(Annotation)详解
android·java·python
汤姆yu34 分钟前
基于大数据的全国降水可视化分析预测系统
大数据·开发语言·python
星空的资源小屋3 小时前
Text Grab,一款OCR 截图文字识别工具
python·django·ocr·scikit-learn
寒秋丶3 小时前
Milvus:Json字段详解(十)
数据库·人工智能·python·ai·milvus·向量数据库·rag
自由随风飘7 小时前
python 题目练习1~5
开发语言·python
fl1768319 小时前
基于python的天气预报系统设计和可视化数据分析源码+报告
开发语言·python·数据分析