Python 爬虫 · bs4 模块基础

Python 学习第 31 天(^-)db(-^)

接上一篇讲解了 HTML 的结构与语法之后,我们就可以开始用 Python 编程语言去抓取 HTML 和 XML 中我们想要的内容。对于这个方向,Python 中有具体的模块方便我们处理。

一、bs4 模块介绍

BeautifuSoup4(简称 bs4)是一个强大的 Python 库,用于解析 HTML 和 XML 文档,能够快速获取网页中的数据。

二、bs4 模块安装

在代码框中输入以下代码:

复制代码
pip install bs4

系统下载需要一点时间(注意要在联网状态下进行),当运行结果中出现以下文字,说明 bs4 模块安装成功:

注意:- 0.0.2 是版本号,随着更新,可能不一样。

三、bs4 模块使用

以以下 HTML 文档内容为例:

复制代码
html = """
<ul>
    <li>大脑在放电</li>
    <li id = "NO.1">1111111</li>
    <li>哈哈哈哈哈</li>
    <li class = "Music">《去北极忘记你》</li>
    <li class = "Movie">《解忧杂货铺》</li>
    <li class = "Music">《我会找到你》</li>
    <li class = "Music">《来自天堂的魔鬼》</li>
    <li class = "Movie">《送我上青云》</li>
    <li class = "animation"><a href = "https://baike.baidu.com/item/%e5%b0%8f%e7%8c%aa%e4%bd%a9%e5%a5%87/12343674">小猪佩奇</a></li>
    <li><a href = "https://pythonlang.cn/">Python</a></li>
</ul>
"""

1. 模块导入

复制代码
from bs4 import BeautifulSoup

2. 初始化对象

格式:变量名 = BeautifulSoup(html, "html.parser")

复制代码
a = BeautifulSoup(html, "html.parser")

3. 常用查找

(1) 查找一个,只会返回找到的第一条内容(按 "标签" 查找)

格式:变量名.find("标签名", attr = {"用于筛选的属性名1":"属性值1", "用于筛选的属性值2":"属性值2", ......})

代码示例1:

复制代码
a.find("li")

运行结果1:<li>大脑在放电</li>

代码示例2:

复制代码
a.find("li", attrs = {"id":"NO.1"})

运行结果2:<li id="NO.1">1111111</li>

代码示例3:

复制代码
li = a.find("li", attrs = {"class":"animation"})
link_1 = li.find("a")
print(link_1)
print(link_1.text)
print(link_1.get("href"))

运行结果3:

(2) 查找多个,返回符合条件的所有内容(按 "标签" 查找)

格式:变量名.find_all("标签名", attr = {"用于筛选的属性名1":"属性值1", "用于筛选的属性值2":"属性值2", ......})

代码示例1:

复制代码
a.find_all("li")

运行结果1:

代码示例2:

复制代码
a.find_all("li", attrs = {"class":"Music"})

运行结果2:

代码示例3:

复制代码
li_list = a.find_all("a")
for li in li_list:
    print(f"{li.text}:{li.get("href")}")

运行结果3:

相关推荐
花酒锄作田20 小时前
Pydantic校验配置文件
python
hboot20 小时前
AI工程师第四课 - 深度学习入门
pytorch·python·神经网络
ZhengEnCi1 天前
P2M-Matplotlib折线图完全指南-从数据可视化到趋势分析的Python绘图利器
python·matlab·数据可视化
ZhengEnCi1 天前
P2L-Matplotlib饼图完全指南-从数据可视化到图表定制的Python绘图利器
python·matlab
曲幽1 天前
你的REST接口还在“过度投喂”数据吗?——FastAPI + GraphQL实战避坑指南
python·fastapi·web·graphql·route·cors·rest·strawberry
用户8358086187911 天前
基于 Self-RAG 与列表级重排序的进阶 RAG 系统设计与实现
python
Warson_L2 天前
Python `Annotated` 与 LangGraph Reducer 学习笔记
python
韩师傅2 天前
海天线算法的前世今生
python·计算机视觉
韩师傅2 天前
当你的甲方设备过烂,要如何快速出效果?
python·计算机视觉
Warson_L2 天前
LangGraph的MessageState and HumanMessage
python