3.2 Beautiful Soup使用

课程目标

  • 理解HTML文档结构和解析方法
  • 学习使用Beautiful Soup库解析HTML和XML文档

课程内容

Beautiful Soup
1. HTML文档结构

HTML(超文本标记语言)是构建网页的标准标记语言。了解HTML的基本结构对于使用Beautiful Soup解析网页至关重要。

  • 标签 :HTML由一系列的标签组成,例如<p>表示段落。
  • 属性 :标签可以包含属性,例如<img src="image.jpg">中的src属性。
2. 安装Beautiful Soup和Pandas

使用pip命令安装所需的库。

bash 复制代码
pip install beautifulsoup4 
3. 使用Beautiful Soup解析HTML

Beautiful Soup是一个用于解析HTML和XML文档的Python库。

python 复制代码
from bs4 import BeautifulSoup
import requests

# 获取网页内容
response = requests.get('https://www.example.com')
html_content = response.text

# 解析HTML
soup = BeautifulSoup(html_content, 'html.parser')

# 找到所有的段落标签
paragraphs = soup.find_all('p')
for p in paragraphs:
    print(p.text)
4. Beautiful Soup的定位

Beautiful Soup提供了丰富的方法来导航和搜索解析树。

  • find(): 查找一个标签。
  • find_all(): 查找所有匹配的标签。
  • select(): 使用CSS选择器查找标签。
python 复制代码
# 查找ID为"main-content"的div
main_content = soup.find('div', id='main-content')

# 查找所有的图片标签
images = soup.find_all('img')

# 使用CSS选择器
links = soup.select('a[href]')
5. 值的获取
python 复制代码
# 获取属性值
img_src = soup.find('img').get('src')
# 获取文本内容
text = soup.text
相关推荐
2401_8414956421 小时前
【自然语言处理】基于统计基的句子边界检测算法
人工智能·python·算法·机器学习·自然语言处理·统计学习·句子边界检测算法
程序员爱钓鱼21 小时前
Python编程实战 - Python实用工具与库 - 操作Word:python-docx
后端·python
程序员爱钓鱼21 小时前
Python编程实战 - Python实用工具与库 - 操作PDF:pdfplumber、PyPDF2
后端·python
啾啾啾66621 小时前
连接一个新的服务器时,打开PyCharm时报错:报错内容是服务器磁盘或配额满了
python·pycharm
长不大的蜡笔小新21 小时前
掌握NumPy:ndarray核心特性与创建
开发语言·python·numpy
luoganttcc1 天前
已知 空间 三个 A,B C 点 ,求 顺序 经过 A B C 三点 圆弧 轨迹 ,给出 python 代码 并且 画出图像
c语言·开发语言·python
Q_Q5110082851 天前
python+django/flask的图书馆管理系统vue
spring boot·python·django·flask·node.js·php
cwh_rs_giser1 天前
如何高效设置机器学习超参数?——借鉴成熟AutoML框架的实践
人工智能·python·机器学习
逻极1 天前
Scikit-learn 入门指南:从零到一掌握机器学习经典库(2025 最新版)
人工智能·python·机器学习·ai·scikit-learn·agent
再玩一会儿看代码1 天前
Ken的Java学习之路——Java中关于面向对象
java·开发语言·经验分享·python·学习