【Python】爬虫html提取内容基础,bs4

前言

BeautifulSoup也就是bs4,里面功能其实有很多,不过对于爬虫而言主要掌握一下几块就可以了

  1. 怎么找标签?
  2. 找到标签后怎么获取属性,怎么获取文本内容
  3. 如何通过找到的标签继续获取子标签

安装

复制代码
pip install bs4

案例

对于找标签来说,bs4提供了很多方法,不过掌握find()find_all()一般就能满足大部分爬虫场景了

固定语法page.find("标签名", attrs={"属性": "值"})

python 复制代码
from bs4 import BeautifulSoup
html = """
<html>
<body>
    <ul>
        <li><a href="link1.html">斗罗大陆</a></li>
        <li id="abc"><a href="link1.html">斗破苍穹</a></li>
        <li><a href="link1.html">仙逆</a></li>
        <li><a href="link1.html">凡人修仙传</a></li>
    </ul>
</body>
</html>
"""
# 1.初始化对象
page = BeautifulSoup(html, 'html.parser')
# 2.固定语法-查找某个元素
li = page.find("li", attrs={"id": "abc"})
# 3.每个被找到的元素,都可以继续被find()和find_all()
# 查找li标签下的a标签
a = li.find("a")
# 4.获取标签属性
a_href = a.get('href')
# 5.获取文本内容
a_text = a.text

# find_all()使用
li_list = page.find_all("li")
for li in li_list:
	print(li.text)

总结

  1. bs4可以通过find()find_all()查找标签
  2. 查找到的标签可以继续使用find()find_all()查找下级标签
  3. 标签通过get()方法获取标签属性,通过.text获取标签文本内容
相关推荐
数据知道4 小时前
斩断 `navigator` 前端:底层重写 UserAgent/Platform/Language 属性描述符
爬虫·数据采集·指纹浏览器·浏览器指纹
xsc6996755 小时前
从零搭建大模型与智能体平台 - 完整技术详解
python
无风听海6 小时前
多租户系统中的 OIDC:Discovery 端点与联合登录的深度实践
后端·python·flask
CTA终结者7 小时前
期货量化主力换月程序怎么移仓:天勤 underlying_symbol 与任务切换
python·区块链
马士兵教育7 小时前
Java还有前景吗?Java+AI大模型学习路线及项目?
java·人工智能·python·学习·机器学习
KaMeidebaby7 小时前
卡梅德生物技术快报|纯化重组蛋白实操详解
人工智能·python·tcp/ip·算法·机器学习
Cloud_Shy6188 小时前
解读《Effective Python 3rd Edition》:从练气到老魔(第五章 Item 30 - 32)
开发语言·人工智能·笔记·python·学习方法
天佑木枫8 小时前
15天Python入门系列 · 序
开发语言·python
happylifetree8 小时前
Python017-第二章15.数据容器-dict常用操作
python
装不满的克莱因瓶8 小时前
了解 LangChain 中的 LLM 与 ChatModel 的差异
人工智能·python·ai·langchain·llm·agent·chatmodel