Python 学习第 31 天(^-)db(-^)
接上一篇讲解了 HTML 的结构与语法之后,我们就可以开始用 Python 编程语言去抓取 HTML 和 XML 中我们想要的内容。对于这个方向,Python 中有具体的模块方便我们处理。
一、bs4 模块介绍
BeautifuSoup4(简称 bs4)是一个强大的 Python 库,用于解析 HTML 和 XML 文档,能够快速获取网页中的数据。
二、bs4 模块安装
在代码框中输入以下代码:
pip install bs4
系统下载需要一点时间(注意要在联网状态下进行),当运行结果中出现以下文字,说明 bs4 模块安装成功:

注意:- 0.0.2 是版本号,随着更新,可能不一样。
三、bs4 模块使用
以以下 HTML 文档内容为例:
html = """
<ul>
<li>大脑在放电</li>
<li id = "NO.1">1111111</li>
<li>哈哈哈哈哈</li>
<li class = "Music">《去北极忘记你》</li>
<li class = "Movie">《解忧杂货铺》</li>
<li class = "Music">《我会找到你》</li>
<li class = "Music">《来自天堂的魔鬼》</li>
<li class = "Movie">《送我上青云》</li>
<li class = "animation"><a href = "https://baike.baidu.com/item/%e5%b0%8f%e7%8c%aa%e4%bd%a9%e5%a5%87/12343674">小猪佩奇</a></li>
<li><a href = "https://pythonlang.cn/">Python</a></li>
</ul>
"""
1. 模块导入
from bs4 import BeautifulSoup
2. 初始化对象
格式:变量名 = BeautifulSoup(html, "html.parser")
a = BeautifulSoup(html, "html.parser")
3. 常用查找
(1) 查找一个,只会返回找到的第一条内容(按 "标签" 查找)
格式:变量名.find("标签名", attr = {"用于筛选的属性名1":"属性值1", "用于筛选的属性值2":"属性值2", ......})
代码示例1:
a.find("li")
运行结果1:<li>大脑在放电</li>
代码示例2:
a.find("li", attrs = {"id":"NO.1"})
运行结果2:<li id="NO.1">1111111</li>
代码示例3:
li = a.find("li", attrs = {"class":"animation"})
link_1 = li.find("a")
print(link_1)
print(link_1.text)
print(link_1.get("href"))
运行结果3:

(2) 查找多个,返回符合条件的所有内容(按 "标签" 查找)
格式:变量名.find_all("标签名", attr = {"用于筛选的属性名1":"属性值1", "用于筛选的属性值2":"属性值2", ......})
代码示例1:
a.find_all("li")
运行结果1:

代码示例2:
a.find_all("li", attrs = {"class":"Music"})
运行结果2:

代码示例3:
li_list = a.find_all("a")
for li in li_list:
print(f"{li.text}:{li.get("href")}")
运行结果3:
