Python 爬虫 · bs4 模块基础

Python 学习第 31 天(^-)db(-^)

接上一篇讲解了 HTML 的结构与语法之后，我们就可以开始用 Python 编程语言去抓取 HTML 和 XML 中我们想要的内容。对于这个方向，Python 中有具体的模块方便我们处理。

一、bs4 模块介绍

BeautifuSoup4（简称 bs4）是一个强大的 Python 库，用于解析 HTML 和 XML 文档，能够快速获取网页中的数据。

二、bs4 模块安装

在代码框中输入以下代码：

复制代码

pip install bs4

系统下载需要一点时间（注意要在联网状态下进行），当运行结果中出现以下文字，说明 bs4 模块安装成功：

注意：- 0.0.2 是版本号，随着更新，可能不一样。

三、bs4 模块使用

以以下 HTML 文档内容为例：

复制代码

html = """
<ul>
    <li>大脑在放电</li>
    <li id = "NO.1">1111111</li>
    <li>哈哈哈哈哈</li>
    <li class = "Music">《去北极忘记你》</li>
    <li class = "Movie">《解忧杂货铺》</li>
    <li class = "Music">《我会找到你》</li>
    <li class = "Music">《来自天堂的魔鬼》</li>
    <li class = "Movie">《送我上青云》</li>
    <li class = "animation"><a href = "https://baike.baidu.com/item/%e5%b0%8f%e7%8c%aa%e4%bd%a9%e5%a5%87/12343674">小猪佩奇</a></li>
    <li><a href = "https://pythonlang.cn/">Python</a></li>
</ul>
"""

1. 模块导入

复制代码

from bs4 import BeautifulSoup

2. 初始化对象

格式：变量名 = BeautifulSoup(html, "html.parser")

复制代码

a = BeautifulSoup(html, "html.parser")

3. 常用查找

(1) 查找一个，只会返回找到的第一条内容（按 "标签" 查找）

格式：变量名.find("标签名", attr = {"用于筛选的属性名1":"属性值1", "用于筛选的属性值2":"属性值2", ......})

代码示例1：

复制代码

a.find("li")

运行结果1：<li>大脑在放电</li>

代码示例2：

复制代码

a.find("li", attrs = {"id":"NO.1"})

运行结果2：<li id="NO.1">1111111</li>

代码示例3：

复制代码

li = a.find("li", attrs = {"class":"animation"})
link_1 = li.find("a")
print(link_1)
print(link_1.text)
print(link_1.get("href"))

运行结果3：

(2) 查找多个，返回符合条件的所有内容（按 "标签" 查找）

格式：变量名.find_all("标签名", attr = {"用于筛选的属性名1":"属性值1", "用于筛选的属性值2":"属性值2", ......})

代码示例1：

复制代码

a.find_all("li")

运行结果1：

代码示例2：

复制代码

a.find_all("li", attrs = {"class":"Music"})

运行结果2：

代码示例3：

复制代码

li_list = a.find_all("a")
for li in li_list:
    print(f"{li.text}:{li.get("href")}")

运行结果3：