【Python】爬虫html提取内容基础,bs4

前言

BeautifulSoup也就是bs4,里面功能其实有很多,不过对于爬虫而言主要掌握一下几块就可以了

  1. 怎么找标签?
  2. 找到标签后怎么获取属性,怎么获取文本内容
  3. 如何通过找到的标签继续获取子标签

安装

复制代码
pip install bs4

案例

对于找标签来说,bs4提供了很多方法,不过掌握find()find_all()一般就能满足大部分爬虫场景了

固定语法page.find("标签名", attrs={"属性": "值"})

python 复制代码
from bs4 import BeautifulSoup
html = """
<html>
<body>
    <ul>
        <li><a href="link1.html">斗罗大陆</a></li>
        <li id="abc"><a href="link1.html">斗破苍穹</a></li>
        <li><a href="link1.html">仙逆</a></li>
        <li><a href="link1.html">凡人修仙传</a></li>
    </ul>
</body>
</html>
"""
# 1.初始化对象
page = BeautifulSoup(html, 'html.parser')
# 2.固定语法-查找某个元素
li = page.find("li", attrs={"id": "abc"})
# 3.每个被找到的元素,都可以继续被find()和find_all()
# 查找li标签下的a标签
a = li.find("a")
# 4.获取标签属性
a_href = a.get('href')
# 5.获取文本内容
a_text = a.text

# find_all()使用
li_list = page.find_all("li")
for li in li_list:
	print(li.text)

总结

  1. bs4可以通过find()find_all()查找标签
  2. 查找到的标签可以继续使用find()find_all()查找下级标签
  3. 标签通过get()方法获取标签属性,通过.text获取标签文本内容
相关推荐
Lupino1 分钟前
拯救迷失的荧光溶解氧传感器:从“三无”到“复活”的全记录
python
xcjbqd016 分钟前
SQL中视图能否嵌套存储过程_实现复杂自动化报表逻辑
jvm·数据库·python
ZC跨境爬虫17 分钟前
海南大学交友平台开发实战day7(实现核心匹配算法+解决JSON请求报错问题)
前端·python·算法·html·json
迷藏49420 分钟前
**发散创新:基于角色与属性的混合权限模型在微服务架构中的实战落地**在现代分布式系统中,
java·python·微服务·云原生·架构
与虾牵手30 分钟前
OpenClaw 和 AiPy 怎么选?2026 功能实测对比 + 踩坑全记录
python·ai编程
Csvn31 分钟前
🌟 LangChain 30 天保姆级教程 · Day 16|文档加载器大合集!PDF、Word、网页、数据库一键读取,构建你的知识库!
python·langchain
rebekk39 分钟前
claude工作区与git仓库的关系
linux·git·python
Huyuejia44 分钟前
rag+agent主程序
python
jay神1 小时前
基于 YOLOv8 的PCB 缺陷检测系统
python·深度学习·yolo·目标检测·信息可视化·毕业设计
zhaoshuzhaoshu1 小时前
设计模式之行为型设计模式详解
python·设计模式