利用Python爬虫获取xx数据

目录

一、前言

[二、requests 请求库](#二、requests 请求库)

[1、requests 安装](#1、requests 安装)

[2、requests 的基本使用](#2、requests 的基本使用)

[三、Beautiful Soup](#三、Beautiful Soup)

[1、Beautiful Soup 安装](#1、Beautiful Soup 安装)

2、BeautifulSoup对象介绍与创建

3、BeautifulSoup对象的find方法

四、总结


一、前言

什么是爬虫?

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,获取响应数据,一种按照一定的规则,自动地抓取万维网信息的程序或脚本。

他的作用是什么?

从万维网上获取, 我们需要的信息。

二、requests 请求库

requests 是一个基于 Python 的 HTTP 请求库,它简化了发送 HTTP 请求和处理响应的过程。使用 requests 库,开发者可以轻松地发送 GET、POST、PUT、DELETE 等类型的请求,并处理返回的数据。requests 库提供了简洁易用的 API 接口,使得进行 HTTP 请求变得非常方便。它支持 SSL、连接池、Cookie 持久化、代理、认证等功能,是 Python 中常用的 HTTP 请求库之一,广泛应用于网络爬虫、Web 开发等领域。

1、requests 安装

在终端(命令行工具) 运行这个简单命令即可 "pip install requests"。

注意:
如果你要安装Python虚拟环境中, 先进入虚拟机环境再执行上述命令
如果系统中既安装了Python2 又安装了 Python3, 需要安装Python3环境中: pip3 install requests

2、requests 的基本使用

导入模块、发送get请求, 获取响应: 、从响应中获取数据:

这串代码的作用是什么呢?常见属性又是什么呢?

response.text : 响应体 str类型

response.ecoding : 二进制转换字符使用的编码

respones.content: 响应体 bytes类型

三、Beautiful Soup

Beautiful Soup 是一个用于解析 HTML 和 XML 文档的 Python 库。它可以帮助开发者从网页中提取数据,进行信息检索和数据挖掘等操作。通过 Beautiful Soup,开发者可以方便地遍历文档树、搜索特定内容,并提取所需信息。这个库提供了简单又灵活的方式来处理复杂的 HTML 和 XML 结构,是 Python 爬虫和数据抓取中常用的工具之一。

1、Beautiful Soup****安装

安装 Beautiful Soup 4

pip install bs4

安装 lxml

pip install lxml

2、BeautifulSoup****对象介绍与创建

BeautifulSoup对象: 代表要解析整个文档树,

它支持 遍历文档树 和 搜索文档树 中描述的大部分的方法.

创建BeautifulSoup对象

注意:可能存在警告问题

解决警告问题

3、BeautifulSoup对象的find****方法

find (self, name=None, attrs={}, recursive=True, text=None, **kwargs)
参数
u name : 标签名
u attrs : 属性字典
u recursive : 是否递归循环查找
u text : 根据文本内容查找
返回
u 查找到的第一个元素对象

四、总结

利用Python爬虫获取xx数据前置环境要求完成,下一篇就开始正片了。

相关推荐
huohaiyu1 小时前
Hashtable,HashMap,ConcurrentHashMap之间的区别
java·开发语言·多线程·哈希
木子杳衫2 小时前
【软件开发】管理类系统
python·web开发
程序员小远5 小时前
银行测试:第三方支付平台业务流,功能/性能/安全测试方法
自动化测试·软件测试·python·功能测试·测试工具·性能测试·安全性测试
Predestination王瀞潞5 小时前
IO操作(Num22)
开发语言·c++
宋恩淇要努力6 小时前
C++继承
开发语言·c++
猫头虎7 小时前
如何查看局域网内IP冲突问题?如何查看局域网IP环绕问题?arp -a命令如何使用?
网络·python·网络协议·tcp/ip·开源·pandas·pip
沿着路走到底7 小时前
python 基础
开发语言·python
沐知全栈开发8 小时前
C# 委托(Delegate)
开发语言
任子菲阳9 小时前
学Java第三十四天-----抽象类和抽象方法
java·开发语言
烛阴9 小时前
武装你的Python“工具箱”:盘点10个你必须熟练掌握的核心方法
前端·python