Python 爬虫 · bs4 模块基础

Python 学习第 31 天(^-)db(-^)

接上一篇讲解了 HTML 的结构与语法之后,我们就可以开始用 Python 编程语言去抓取 HTML 和 XML 中我们想要的内容。对于这个方向,Python 中有具体的模块方便我们处理。

一、bs4 模块介绍

BeautifuSoup4(简称 bs4)是一个强大的 Python 库,用于解析 HTML 和 XML 文档,能够快速获取网页中的数据。

二、bs4 模块安装

在代码框中输入以下代码:

复制代码
pip install bs4

系统下载需要一点时间(注意要在联网状态下进行),当运行结果中出现以下文字,说明 bs4 模块安装成功:

注意:- 0.0.2 是版本号,随着更新,可能不一样。

三、bs4 模块使用

以以下 HTML 文档内容为例:

复制代码
html = """
<ul>
    <li>大脑在放电</li>
    <li id = "NO.1">1111111</li>
    <li>哈哈哈哈哈</li>
    <li class = "Music">《去北极忘记你》</li>
    <li class = "Movie">《解忧杂货铺》</li>
    <li class = "Music">《我会找到你》</li>
    <li class = "Music">《来自天堂的魔鬼》</li>
    <li class = "Movie">《送我上青云》</li>
    <li class = "animation"><a href = "https://baike.baidu.com/item/%e5%b0%8f%e7%8c%aa%e4%bd%a9%e5%a5%87/12343674">小猪佩奇</a></li>
    <li><a href = "https://pythonlang.cn/">Python</a></li>
</ul>
"""

1. 模块导入

复制代码
from bs4 import BeautifulSoup

2. 初始化对象

格式:变量名 = BeautifulSoup(html, "html.parser")

复制代码
a = BeautifulSoup(html, "html.parser")

3. 常用查找

(1) 查找一个,只会返回找到的第一条内容(按 "标签" 查找)

格式:变量名.find("标签名", attr = {"用于筛选的属性名1":"属性值1", "用于筛选的属性值2":"属性值2", ......})

代码示例1:

复制代码
a.find("li")

运行结果1:<li>大脑在放电</li>

代码示例2:

复制代码
a.find("li", attrs = {"id":"NO.1"})

运行结果2:<li id="NO.1">1111111</li>

代码示例3:

复制代码
li = a.find("li", attrs = {"class":"animation"})
link_1 = li.find("a")
print(link_1)
print(link_1.text)
print(link_1.get("href"))

运行结果3:

(2) 查找多个,返回符合条件的所有内容(按 "标签" 查找)

格式:变量名.find_all("标签名", attr = {"用于筛选的属性名1":"属性值1", "用于筛选的属性值2":"属性值2", ......})

代码示例1:

复制代码
a.find_all("li")

运行结果1:

代码示例2:

复制代码
a.find_all("li", attrs = {"class":"Music"})

运行结果2:

代码示例3:

复制代码
li_list = a.find_all("a")
for li in li_list:
    print(f"{li.text}:{li.get("href")}")

运行结果3:

相关推荐
宸津-代码粉碎机1 小时前
Spring AI企业级实战|Agent长期记忆持久化落地,彻底解决多轮对话上下文丢失问题
java·开发语言·人工智能·后端·python·spring
belong_my_offer2 小时前
Python 数据采集完全指南 —— 从零开始掌握网络爬虫与文件读取
开发语言·爬虫·python
Adorable老犀牛2 小时前
Prometheus 常用告警规则 rules.yml
开发语言·prometheus·exporter·nodeexpoeter
stephon_1002 小时前
国产大模型 Agent 开发实战:用 milu 5 分钟搭一个多用户 AI Agent 服务(DeepSeek/Qwen/Kimi/GLM)
人工智能·python·ai·chatgpt
阿里matlab建模师2 小时前
【机场停机位分配】matlab实现基于遗传算法的机场停机位分配优化研究
开发语言·算法·数学建模·matlab·全国大学生数学建模竞赛
xiaoshuaishuai82 小时前
C# Avalonia 依赖属性与WPF的区别
开发语言·c#·wpf
一碗白开水一2 小时前
【训练技巧】bash: conda: command not found:conda 没有适配环境
开发语言·conda·bash
一晌小贪欢2 小时前
第22节:相关性分析——协方差、相关系数与热力图解读
开发语言·python·数据分析·pandas·数据可视化
杨超越luckly2 小时前
Agent应用指南:利用GET请求获取理想汽车门店位置信息
前端·python·html·汽车·可视化