利用Python爬虫获取xx数据

目录

一、前言

[二、requests 请求库](#二、requests 请求库)

[1、requests 安装](#1、requests 安装)

[2、requests 的基本使用](#2、requests 的基本使用)

[三、Beautiful Soup](#三、Beautiful Soup)

[1、Beautiful Soup 安装](#1、Beautiful Soup 安装)

2、BeautifulSoup对象介绍与创建

3、BeautifulSoup对象的find方法

四、总结


一、前言

什么是爬虫?

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,获取响应数据,一种按照一定的规则,自动地抓取万维网信息的程序或脚本。

他的作用是什么?

从万维网上获取, 我们需要的信息。

二、requests 请求库

requests 是一个基于 Python 的 HTTP 请求库,它简化了发送 HTTP 请求和处理响应的过程。使用 requests 库,开发者可以轻松地发送 GET、POST、PUT、DELETE 等类型的请求,并处理返回的数据。requests 库提供了简洁易用的 API 接口,使得进行 HTTP 请求变得非常方便。它支持 SSL、连接池、Cookie 持久化、代理、认证等功能,是 Python 中常用的 HTTP 请求库之一,广泛应用于网络爬虫、Web 开发等领域。

1、requests 安装

在终端(命令行工具) 运行这个简单命令即可 "pip install requests"。

注意:
如果你要安装Python虚拟环境中, 先进入虚拟机环境再执行上述命令
如果系统中既安装了Python2 又安装了 Python3, 需要安装Python3环境中: pip3 install requests

2、requests 的基本使用

导入模块、发送get请求, 获取响应: 、从响应中获取数据:

这串代码的作用是什么呢?常见属性又是什么呢?

response.text : 响应体 str类型

response.ecoding : 二进制转换字符使用的编码

respones.content: 响应体 bytes类型

三、Beautiful Soup

Beautiful Soup 是一个用于解析 HTML 和 XML 文档的 Python 库。它可以帮助开发者从网页中提取数据,进行信息检索和数据挖掘等操作。通过 Beautiful Soup,开发者可以方便地遍历文档树、搜索特定内容,并提取所需信息。这个库提供了简单又灵活的方式来处理复杂的 HTML 和 XML 结构,是 Python 爬虫和数据抓取中常用的工具之一。

1、Beautiful Soup****安装

安装 Beautiful Soup 4

pip install bs4

安装 lxml

pip install lxml

2、BeautifulSoup****对象介绍与创建

BeautifulSoup对象: 代表要解析整个文档树,

它支持 遍历文档树 和 搜索文档树 中描述的大部分的方法.

创建BeautifulSoup对象

注意:可能存在警告问题

解决警告问题

3、BeautifulSoup对象的find****方法

find (self, name=None, attrs={}, recursive=True, text=None, **kwargs)
参数
u name : 标签名
u attrs : 属性字典
u recursive : 是否递归循环查找
u text : 根据文本内容查找
返回
u 查找到的第一个元素对象

四、总结

利用Python爬虫获取xx数据前置环境要求完成,下一篇就开始正片了。

相关推荐
Sherry Wangs几秒前
【ML】机器学习进阶
人工智能·python·机器学习
X1A0RAN9 分钟前
python 借助 paramiko 库执行 SSH命令报错:input is not a terminal 解决方式
开发语言·python·ssh
冰清-小魔鱼14 分钟前
各类数据存储结构总结
开发语言·数据结构·数据库
百***787537 分钟前
Grok-4.1与GPT-5.2深度对比:技术差异、适用场景及Python集成指南
java·python·gpt
Mr -老鬼1 小时前
Java VS Rust
java·开发语言·rust
北凉军1 小时前
java连接达梦数据库,用户名是其他库的名称无法指定库,所有mapper查询的都是以用户名相同的库内的表
java·开发语言·数据库
沛沛老爹1 小时前
Web转AI架构篇 Agent Skills vs MCP:工具箱与标准接口的本质区别
java·开发语言·前端·人工智能·架构·企业开发
avi91111 小时前
Unity 天命6源码- 商业游戏说明分析
开发语言·unity·c#·游戏开发·游戏源码
黎雁·泠崖1 小时前
吃透Java操作符进阶:算术+移位操作符 全解析(Java&C区别+完整案例+避坑指南)
java·c语言·python
低频电磁之道2 小时前
编译C++的几种方式(MSVC编译器)
开发语言·c++