利用Python爬虫获取xx数据

目录

一、前言

[二、requests 请求库](#二、requests 请求库)

[1、requests 安装](#1、requests 安装)

[2、requests 的基本使用](#2、requests 的基本使用)

[三、Beautiful Soup](#三、Beautiful Soup)

[1、Beautiful Soup 安装](#1、Beautiful Soup 安装)

2、BeautifulSoup对象介绍与创建

3、BeautifulSoup对象的find方法

四、总结


一、前言

什么是爬虫?

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,获取响应数据,一种按照一定的规则,自动地抓取万维网信息的程序或脚本。

他的作用是什么?

从万维网上获取, 我们需要的信息。

二、requests 请求库

requests 是一个基于 Python 的 HTTP 请求库,它简化了发送 HTTP 请求和处理响应的过程。使用 requests 库,开发者可以轻松地发送 GET、POST、PUT、DELETE 等类型的请求,并处理返回的数据。requests 库提供了简洁易用的 API 接口,使得进行 HTTP 请求变得非常方便。它支持 SSL、连接池、Cookie 持久化、代理、认证等功能,是 Python 中常用的 HTTP 请求库之一,广泛应用于网络爬虫、Web 开发等领域。

1、requests 安装

在终端(命令行工具) 运行这个简单命令即可 "pip install requests"。

注意:
如果你要安装Python虚拟环境中, 先进入虚拟机环境再执行上述命令
如果系统中既安装了Python2 又安装了 Python3, 需要安装Python3环境中: pip3 install requests

2、requests 的基本使用

导入模块、发送get请求, 获取响应: 、从响应中获取数据:

这串代码的作用是什么呢?常见属性又是什么呢?

response.text : 响应体 str类型

response.ecoding : 二进制转换字符使用的编码

respones.content: 响应体 bytes类型

三、Beautiful Soup

Beautiful Soup 是一个用于解析 HTML 和 XML 文档的 Python 库。它可以帮助开发者从网页中提取数据,进行信息检索和数据挖掘等操作。通过 Beautiful Soup,开发者可以方便地遍历文档树、搜索特定内容,并提取所需信息。这个库提供了简单又灵活的方式来处理复杂的 HTML 和 XML 结构,是 Python 爬虫和数据抓取中常用的工具之一。

1、Beautiful Soup****安装

安装 Beautiful Soup 4

pip install bs4

安装 lxml

pip install lxml

2、BeautifulSoup****对象介绍与创建

BeautifulSoup对象: 代表要解析整个文档树,

它支持 遍历文档树 和 搜索文档树 中描述的大部分的方法.

创建BeautifulSoup对象

注意:可能存在警告问题

解决警告问题

3、BeautifulSoup对象的find****方法

find (self, name=None, attrs={}, recursive=True, text=None, **kwargs)
参数
u name : 标签名
u attrs : 属性字典
u recursive : 是否递归循环查找
u text : 根据文本内容查找
返回
u 查找到的第一个元素对象

四、总结

利用Python爬虫获取xx数据前置环境要求完成,下一篇就开始正片了。

相关推荐
PyAIGCMaster几秒前
python环境中,敏感数据的存储与读取问题解决方案
服务器·前端·python
汉克老师9 分钟前
GESP4级考试语法知识(贪心算法(四))
开发语言·c++·算法·贪心算法·图论·1024程序员节
何曾参静谧29 分钟前
「Py」模块篇 之 PyAutoGUI库自动化图形用户界面库
运维·python·自动化
pumpkin8451435 分钟前
客户端发送http请求进行流量控制
python·网络协议·http
smj2302_7968265242 分钟前
用枚举算法解决LeetCode第3348题最小可整除数位乘积II
python·算法·leetcode
爱吃生蚝的于勒1 小时前
C语言最简单的扫雷实现(解析加原码)
c语言·开发语言·学习·计算机网络·算法·游戏程序·关卡设计
Ai 编码助手1 小时前
Go语言 实现将中文转化为拼音
开发语言·后端·golang
hummhumm1 小时前
第 12 章 - Go语言 方法
java·开发语言·javascript·后端·python·sql·golang
hummhumm1 小时前
第 8 章 - Go语言 数组与切片
java·开发语言·javascript·python·sql·golang·database
何曾参静谧1 小时前
「QT」文件类 之 QDir 目录类
开发语言·qt