Python爬虫---解析---BeautifulSoup

BeautifulSoup简称:bs4

作用:解析和提取数据

1. 安装:pip install bs4 或pip install bs4 -i https://pypi.douban.com/simple(使用国内镜像下载)

注意:需要安装在python解释器相同的位置,例如:D:\Program Files\Python3.11.4\Scripts

2. 导入: from bs4 import BeautifulSoup

3. 创建对象:

1)服务器响应的文件生成对象:

soup = Bequtifulsoup(response.read().decode(),'lxml')

2)本地文件生成对象 soup = BeautifulSoup(open('1.html'),'lxml')

注意:默认打开文件的编码格式gbk所以需要指定打开编码格式

4.使用:

4.1. bs4的一些函数: 1) find 2) findall 3) select

  1. find:获取第一个符合条件的数据

  2. findall:返回的是一个列表,且返回所有符合条件的标签,如果获取多个标签的数据,需要放在列表中

  3. select:返回的是一个列表,并且会返回多个数据

4.2. 例子:

python 复制代码
from bs4 import BeautifulSoup

# 通过解析本地文件
soup = BeautifulSoup(open("1224-解析-BeautifulSoup.html", encoding="utf-8"), "lxml")
# print(soup)

# 根据标签名查找节点
print(soup.a)  # 获取第一个符合条件的数据的 a标签
print(soup.a.attrs)  # 获取第一个a标签的属性和属性值

# bs4的一些函数:  1) find   2) findall    3) select

# 1) find:获取第一个符合条件的数据
print(soup.find("a"))  # 获取第一个a标签
print(soup.find("a", title="a2"))  # 根据title值来找到对应的标签对象
print(soup.find("a", class_="a1"))  # 根据class值找到对应标签对象,注意class需要添加下划线

# 2) findall:返回的是一个列表,且返回所有符合条件的标签,如果获取多个标签的数据,需要放在列表中
print(soup.find_all("a"))  # 返回所有符合条件的a标签
print(soup.find_all(["a", "span"]))  # 多个需要放在列表中
print(soup.find_all("li", limit=2))  # limit:查找前几个数据

# 3) select:返回的是一个列表,并且会返回多个数据
print(soup.select("a"))
print(soup.select(".a1"))  # 可以通过.代表class
print(soup.select("#l1"))  # 可以通过#代表id
# 属性选择器------通过属性查找对应的标签
print(soup.select("li[id]"))  # 查找到li标签中有id的标签
print(soup.select("li[id='l2']"))  # 查找li标签中id为l2的标签
# 层级选择器
print(soup.select("div li"))  # 后代选择器  div下面的li
print(soup.select("div>ul>li"))  # 子代选择器
print(soup.select("a,li"))   # 找到a标签和li标签的所有的对象

# 节点信息:
# 1)获取节点内容
obj = soup.select("#d1")[0]
# 如果标签对象中,只有内容,那么string和get_text()都可以用
# 如果标签对象中,除了内容还有标签,那么string就获取不到数据,而get_text()可以获取到数据
print(obj.string)    # None
print(obj.get_text())   # 我是第二个span
# 2)节点的属性
obj1 = soup.select("#p1")[0]
print(obj1.name)  # name:标签的名字     p
print(obj.attrs)  # 将属性值作为一个字典返回       {'id': 'd1'}

# 3)获取节点的属性
obj2 = soup.select("#p1")[0]
print(obj2.attrs.get("class"))   # ['p1']
print(obj2.get("class"))   # ['p1']
print(obj2["class"])   # ['p1']

html:

html 复制代码
<!doctype html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport"
          content="width=device-width, user-scalable=no, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0">
    <meta http-equiv="X-UA-Compatible" content="ie=edge">
    <title>Document</title>
</head>
<body>
    <div>
        <ul>
            <li id="l1">张三</li>
            <li id="l2">李四</li>
            <li>王五</li>
            <a href="" id="" class="a1">BeautifulSoup</a>
            <span>我是span</span>
        </ul>
    </div>
    <a href="" title="a2">百度</a>

    <div id="d1">
            <span>我是第二个span</span>
    </div>
    <p id="p1" class="p1">我是p标签</p>
</body>
</html>
相关推荐
思则变2 小时前
[Pytest] [Part 2]增加 log功能
开发语言·python·pytest
漫谈网络2 小时前
WebSocket 在前后端的完整使用流程
javascript·python·websocket
try2find4 小时前
安装llama-cpp-python踩坑记
开发语言·python·llama
泡泡以安5 小时前
安卓高版本HTTPS抓包:终极解决方案
爬虫·https·安卓逆向·安卓抓包
博观而约取5 小时前
Django ORM 1. 创建模型(Model)
数据库·python·django
精灵vector6 小时前
构建专家级SQL Agent交互
python·aigc·ai编程
q567315236 小时前
Java Selenium反爬虫技术方案
java·爬虫·selenium
Zonda要好好学习7 小时前
Python入门Day2
开发语言·python
Vertira7 小时前
pdf 合并 python实现(已解决)
前端·python·pdf
太凉7 小时前
Python之 sorted() 函数的基本语法
python