Python第七弹:爬虫篇:BeautifulSoup库

一、什么是BeautifulSoup

BeautifulSoup,它是一个用于解析 HTML 和 XML 文档的 Python 库,能够从网页中提取数据,常用于网页抓取和数据挖掘。

  • 非Python标准模块,需要手动安装
  • 安装方式 pip/pip3 install beautifulsoup4
复制代码
安装 pip3 install lxml  # 推荐使用 lxml 作为解析器(速度更快)

如果你没有 lxml,可以使用 Python 内置的 html.parser 作为解析器。

1.1 文档树结构

文档树结构。将字符串结构转换为文档树结构。

BeautifulSoup可以将字符串转换为文档树结构,方便解析。

1.2 BeautifulSoup装载HTML

BeautifulSoup容错:BeautifulSoup功能非常强大,它在装载过程中,如果发现HTML文档中的元素有缺失的情况下,它会尽可能的对文档进行修复,是的最后的文档树是一棵完整的文档树。

这一点十分重要。因为我们面临的大多数网页,或多或少有元素是缺失的,BeautifulSoup都能够正确装载它们。

小结:BeautifulSoup虽然功能强大能够修复一些缺失的HTML元素,但是它还没有智能到完全修复所有HTML文档错误的程度。

python 复制代码
from bs4 import BeautifulSoup
import requests

# 使用 requests 获取网页内容
url = 'https://cn.bing.com/' # 抓取bing搜索引擎的网页内容
response = requests.get(url)

# 使用 BeautifulSoup 解析网页
soup = BeautifulSoup(response.text, 'lxml')  # 使用 lxml 解析器
# 解析网页内容 html.parser 解析器
# soup = BeautifulSoup(response.text, 'html.parser')
相关推荐
勇往直前plus12 小时前
Redis&Python 梳理
数据库·redis·python
开源量化GO12 小时前
多品种组合单品种剧烈波动:组合风控先平谁
python
战族狼魂13 小时前
AI 全栈开发实战训练路线(企业级)
人工智能·python·chatgpt·大模型
AC赳赳老秦13 小时前
用 OpenClaw 制定技术学习计划:根据目标岗位自动生成学习路线、推荐学习资源
开发语言·c++·人工智能·python·mysql·php·openclaw
长和信泰光伏储能13 小时前
探索绿色能源未来:光伏储能技术解析
python
李白的天不白13 小时前
config/WebMvcConfig.java
开发语言·python
Elaine33613 小时前
基于Django框架的静态个人名片网站设计
后端·python·django·mvt
数据知道14 小时前
从Playwright到自研:构建指纹浏览器的技术栈选型与路线图
爬虫·数据采集·指纹浏览器
henrylin999914 小时前
开源量化软件功能介绍
python·开源
C+-C资深大佬14 小时前
Python 新手学习指南
开发语言·python