爬虫(requsets)笔记

一、request_基本使用

pip install requests -i https://pypi.douban.com/simple

一个类型六个属性

|---------------|-----------|
| r.text | 获取网站源码 |
| r.encoding | 访问或定制编码方式 |
| r.url | 获取请求的url |
| r.content | 响应的字节类型 |
| r.status_code | 响应的状态码 |
| r.headers | 响应的头信息 |

python 复制代码
import requests

url='http://www.baidu.com'

resopnse=requests.get(url=url)

# 第一类型和六个属性
# Response类型
print(type(resopnse))

# 设置响应的编码格式
resopnse.encoding='utf-8'
# 以字符串的形式
print(resopnse.text)

# 返回一个url地址
print(resopnse.url)

# 返回的是二进制数据
print(resopnse.content)

# 返回响应的状态码
print(resopnse.status_code)

# 返回的是响应头
print(resopnse.headers)

二、requests_get请求

定制参数

|-------------------|
| 1、参数使用params 传递 |
| 2、参数无需urlencode编码 |
| 3、不需要请求对象的定制 |
| 4、请求资源路径中?可加可不加 |

python 复制代码
# urllib
# 1 一个类型六个方法
# 2 get 请求
# 3 post 请求
# 4 ajax get 请求
# 5 ajax post 请求
# 6 cookie登录
# 7 代理

# requsets
# 1 一个类型六个属性
# 2 get 请求
# 3 post 请求
# 4 代理
# 5 cookie 验证码

import requests

url='http://www.baidu.com/s?'

headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36'
}

data={
    'wd':'北京'
}

# url   请求资源路径
# params 参数
# kwargs 字典
response=requests.get(url=url,params=data,headers=headers)

content=response.text

print(content)

# 参数使用params传递
# 参数无需urlencode编码
# 不需要请求对象定制
# 请求资源路径中的?可加可不加

三、request_post请求

get和post区别?

|--------------------------------------------|
| 1: get 请求的参数名字是 params post 请求的参数的名字是 data |
| 2: 请求资源路径后面可以不加? |
| 3: 不需要手动编解码 |
| 4: 不需要做请求对象的定制 |

python 复制代码
import requests

url='https://fanyi.baidu.com/sug'

headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36'
}

data={
    'kw':'eye'
}

#url 请求地址
#data 请求参数
#kwarg 字典
response=requests.post(url=url,data=data,headers=headers)

content=response.text


obj=response.json()
print(obj)

#总结
# 1 post请求 是不需要编解码
# 2 post请求的参数是data
# 3 不需要请求对象的定制

四、使用requsests和xpath获取数据

示例 :获取 百度一下

代码如下:

python 复制代码
# 使用requests和Xpath获取数据
from lxml import etree
import requests

url = 'https://www.baidu.com/'
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) Chrome/65.0.3325.181'}

response = requests.get(url,headers = headers)

# 设置响应的编码格式
response.encoding='utf-8'

# 获取网页源码
content= response.content.decode('utf-8')
# print(content)

# xpath解析
html=etree.HTML(content,parser=etree.HTMLParser(encoding='utf-8'))
request=html.xpath('//*[@id="su"]/@value')[0]
print(request)

运行结果:

相关推荐
yzcxymz10 分钟前
STM32 串口中断接收方式笔记:HAL_UART_Receive_IT vs __HAL_UART_ENABLE_IT
笔记·stm32·单片机
傍晚冰川24 分钟前
【单片机 &C语言】单片机学习过程中常见C库函数(学习笔记)
c语言·笔记·stm32·单片机·学习·阿里云
明明跟你说过42 分钟前
LangChain + 文档处理:构建智能文档问答系统 RAG 的实战指南
人工智能·python·语言模型·自然语言处理·chatgpt·langchain·gpt-3
架构师那点事儿1 小时前
人工智能基础-NumPy-向量矩阵数组库
人工智能·python·numpy
程序员晚枫1 小时前
从零打造你的专属Python第三方库
python·开源
这里有鱼汤2 小时前
__init__.py 是个啥,为什么深受大厂程序员偏爱?
后端·python
啊阿狸不会拉杆2 小时前
数据结构-数组与广义表
java·c语言·数据结构·c++·python·算法
亿牛云爬虫专家2 小时前
容器化爬虫部署:基于K8s的任务调度与自动扩缩容设计
爬虫·容器·kubernetes·自动化·k8s·爬虫代理·代理ip
databook2 小时前
软间隔:让支持向量机更“宽容”
python·机器学习·scikit-learn
人工智能那些事儿2 小时前
神经网络:从基础到应用,开启智能时代的大门
java·人工智能·python·深度学习·神经网络·算法·机器学习