3.2 Beautiful Soup使用

课程目标

  • 理解HTML文档结构和解析方法
  • 学习使用Beautiful Soup库解析HTML和XML文档

课程内容

Beautiful Soup
1. HTML文档结构

HTML(超文本标记语言)是构建网页的标准标记语言。了解HTML的基本结构对于使用Beautiful Soup解析网页至关重要。

  • 标签 :HTML由一系列的标签组成,例如<p>表示段落。
  • 属性 :标签可以包含属性,例如<img src="image.jpg">中的src属性。
2. 安装Beautiful Soup和Pandas

使用pip命令安装所需的库。

bash 复制代码
pip install beautifulsoup4 
3. 使用Beautiful Soup解析HTML

Beautiful Soup是一个用于解析HTML和XML文档的Python库。

python 复制代码
from bs4 import BeautifulSoup
import requests

# 获取网页内容
response = requests.get('https://www.example.com')
html_content = response.text

# 解析HTML
soup = BeautifulSoup(html_content, 'html.parser')

# 找到所有的段落标签
paragraphs = soup.find_all('p')
for p in paragraphs:
    print(p.text)
4. Beautiful Soup的定位

Beautiful Soup提供了丰富的方法来导航和搜索解析树。

  • find(): 查找一个标签。
  • find_all(): 查找所有匹配的标签。
  • select(): 使用CSS选择器查找标签。
python 复制代码
# 查找ID为"main-content"的div
main_content = soup.find('div', id='main-content')

# 查找所有的图片标签
images = soup.find_all('img')

# 使用CSS选择器
links = soup.select('a[href]')
5. 值的获取
python 复制代码
# 获取属性值
img_src = soup.find('img').get('src')
# 获取文本内容
text = soup.text
相关推荐
历程里程碑几秒前
哈希3 : 最长连续序列
java·数据结构·c++·python·算法·leetcode·tornado
火云洞红孩儿6 分钟前
2026年,用PyMe可视化编程重塑Python学习
开发语言·python·学习
2401_841495648 分钟前
【LeetCode刷题】两两交换链表中的节点
数据结构·python·算法·leetcode·链表·指针·迭代法
幻云20108 分钟前
Next.js 之道:从入门到精通
前端·javascript·vue.js·人工智能·python
SunnyDays101112 分钟前
使用 Python 自动查找并高亮 Word 文档中的文本
经验分享·python·高亮word文字·查找word文档中的文字
深蓝电商API17 分钟前
Selenium处理弹窗、警报和验证码识别
爬虫·python·selenium
深蓝电商API22 分钟前
Selenium模拟滚动加载无限下拉页面
爬虫·python·selenium
小王子102426 分钟前
Redis Queue 安装与使用
redis·python·任务队列·rq·redis queue
人工智能AI技术28 分钟前
【Agent从入门到实践】26 使用Chroma搭建本地向量库,实现Agent的短期记忆
人工智能·python
赤狐先生30 分钟前
第三步--根据python基础语法完成一个简单的深度学习模拟
开发语言·python·深度学习